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内 容 提要 


元 学 习 是 当今 人 工 智 能 研究 的 热门 领域 之 一 ， 被 视 为 实现 通用 人 工 智能 的 基础 。 本 书 介绍 元 学 习 
及 其 原理 ， 讲 解 各 种 单 样本 学 习 算 法 ， 例 如 挛 生 网 络 、 原 型 网 络 、 关 系 网 络 和 记忆 增强 网 络 ， 并 在 基于 
Python 的 TensorFlow 与 Keras 中 实现 它们 。 读 者 能 够 从 本 书 中 了 解 先进 的 元 学 习 算 法 , 如 模型 无 关 元 学 习 、 
Reptile 和 元 学 习 的 上 下 文 适 应 。 此 外 ， 本 书 还 探索 如 何 使 用 元 随机 梯度 下 降 法 来 快速 学 习 ， 以 及 如 何 使 用 
元 学 习 来 进行 无 监督 学 习 。 

本 书 适合 机 器 学 习 爱 好 者 、 人 工 智能 研究 人 员 和 数据 科学 家 阅读 。 
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本 书 解 释 元 学 习 的 基本 原理 ， 并 帮助 你 理解 “学 会 学 习 ”( learning to learn ) 的 概念 。 你 将 学 
习 各 种 单 样本 学 习 算 法 ， 例 如 挛 生 网 络 (siamese network )、 原 型 网 络 ( prototypical network )、 关 
系 网 络 ( relation network ) 和 记忆 增强 网 络 (memory-augmented network )， 并 在 TensorFlow 与 
Keras 中 实现 它们 ; 了 人 解 先进 的 元 学 习 算 法 ， 如 模型 无 关 元 学 习 (model-agnostic meta learning， 
MAML )、Reptile 和 元 学 习 的 上 下 文 适应 ( context adaptation via meta learning，CAML ); 探索 如 
何 使 用 元 随机 梯度 下 降 法 (meta stochastic gradient descent，Meta-SGD ) 来 快速 学 习 ， 以 及 如 何 
使 用 元 学 习 来 进行 无 监督 学 习 。 


本 书 读者 


本 书 主 要 写 给 那些 想 了 解 元 学 习 并 将 其 作为 先进 方法 来 训练 机 器 学 习 模 型 的 机 絮 学 习 爱 好 
者 、 人 工 智 能 研究 人 员 和 数据 科学 家 。 读 者 应 当 具 备 机 器 学 习 实 战 经 验 和 坚实 的 Python 编程 知识 。 


本 书 内 容 


第 1 章 , 元 学 习 简 介 ， 帮 助 你 理解 什么 是 元 学 习 ,， 并 介绍 它 的 不 同类 型 。 我 们 将 研究 元 学 习 
如 何 通 过 学 习 少 量 数 据点 来 进行 少 样本 学 习 ， 然 后 熟悉 梯度 下 降 ( gradient descent ) 以 及 少 样本 
学 习 的 模型 优化 。 

第 2 章 , 使 用 挛 生 网 络 进行 人 脸 识别 与 音频 识别 ,首先 解释 什么 是 挛 生 网 络 ， 以 及 如 何在 单 
样本 学 习 中 使 用 挛 生 网 络 , 然后 研究 挛 生 网 络 的 架构 及 其 一 些 应 用 , 以 及 如 何 使 用 挛 生 网 络 来 建 
立 人 脸 识 别 模型 与 音频 识别 模型 。 


第 3 章 , 原型 网 络 及 其 变 体 , 解释 什么 是 原型 网 络 以 及 如 何在 少 样本 学 习 中 使 用 它 。 我们 将 
建立 一 个 对 omniglot 字 符 集 进行 分 类 的 原型 网 络 , 并 学 习 原 型 网 络 的 不 同 变 体 , 如 高 斯 原型 网 络 
和 半 原 型 网 络 。 

第 4 章 ， 使 用 TensorFlow 构建 关系 网 络 与 匹配 网 络 ， 帮 助 你 理解 关系 网 络 的 架构 ， 及 其 在 
单 样本 、 少 样本 和 有 零 样本 学 习 中 的 用 途 。 我 们 将 介绍 如 何 使 用 TensorFlow 构建 关系 网 络 并 将 学 
习 匹 配 网 络 及 其 架构 ， 还 将 探索 完整 的 上 下 文 舱 入 ， 以 及 如 何 使 用 TensorFlow 构建 匹配 网 络 。 








































































































第 5 章 , 记忆 增强 神经 网 络 ， 介 绍 神经 图 灵机 (NTM ) 的 概念 ， 以 及 NTM 如 何 利用 外 部 存 
储 空间 存储 和 检索 信息 。 我 们 将 研究 NTM 中 使 用 的 不 同 寻 址 机 制 ， 并 了 解 记忆 增强 神经 网 络 
(MANN ) 及 其 与 NTM 架构 的 区 别 。 























第 6 章 , MAML 及 其 变种 , 介绍 一 种 流行 的 元 学 习 算 法 一 一 MAML。 我 们 将 探索 什么 是 MAML， 
如 何在 监督 和 强化 学 习 环 境 中 使 用 它 ， 以 及 如 何 从 头 构建 它 。 此 外 还 会 学 习 对 抗 性 元 学 习 和 
CAML， 其 中 后 者 用 于 元 学 习 中 的 快速 上 下 文 适 应 。 


第 7 章 ，Meta-SGD 和 Reptile， 解 释 如 何 使 用 Meta-SGD 学 习 梯 度 下 降 算法 的 所 有 内 容 ， 
如 初始 权重 、 学 习 率 和 更 新 方向 。 我 们 将 了 解 如 何 从 头 开始 构建 Meta-SGD; 学 习 Reptile 算 法， 
它 可 以 被 视 为 MAML 的 改进 版 ; 掌握 如 何 使 用 Reptile 算法 进行 正弦 曲线 回归 。 


第 8 章 , 梯度 一 致 作为 优化 目标 ,介绍 如 何在 元 学 习 环 境 中 使 用 梯度 一 致 作为 优化 目标 。 我 
们 将 学 习 什 么 是 梯度 一 致 及 其 如 何 增强 元 学 习 算法 ， 还 将 学 习 如 何 从 头 构建 梯度 一 致 算法 。 


第 9 章 , 新 进展 与 未 来 方向 , 首先 解释 什么 是 任务 无 关 元 学 习 ; 然后 介绍 如 何在 模仿 学 习 中 
使 用 元 学 习 ， 以 及 如 何 使 用 CACTUs 算法 将 MAML 应 用 到 无 监督 学 习 中 ; 最 后 在 概念 空间 中 探 
索 一 种 叫 作 “学 会 学 习 ” 的 深度 元 学 习 算法 。 


如 何 充分 利用 本 书 
你 需要 安装 下 列 软件 ; 









































口 Python 

口 Anaconda 
口 TensorFlow 
口 Keras 


下 载 示 例 代码 


你 可 以 用 你 的 账户 从 www.packtpub.com 下 载 已 购买 的 Packt 图 书 的 示例 代码 文件 。 如 果 你 
是 从 其 他 地 方 购买 的 本 书 ， 可 以 访问 www.packtpub.com/support 并 注册 ， 我 们 将 通过 电子 邮件 把 
文件 发 送 给 你 。” 

你 可 以 通过 以 下 步骤 下 载 本 书 示例 代码 : 


(1) 在 www.packtpub.com 登录 或 注册 ; 
(2) 选择 SUPPORT 标签; 














人 示例 代码 也 可 以 从 本 书 图 灵 社 区 页 面 ( https:/www.ituring.com.cn/book/2697 ) 获取 。 一 一 编者 注 
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(3) 点 击 Code Downloads & Errata; 
(4) 在 Search 框 输入 书 名 并 遵循 屏幕 上 的 指示 。 


下 载 完 文件 后 ， 确 保 使 用 如 下 软件 的 最 新 版 本 来 解压 或 提取 文件 夹 。 


口 Windows 上 建议 使 用 WinRAR/7-Zip。 
口 Mac 上 建议 使 用 Zipeg/iZip/UnRarX。 
口 Linux 上 建议 使 用 7-Zip/PeaZip。 

















本 书 的 代码 包 也 可 在 GitHub 上 获取 , 在 GitHub 网 站 搜索 Hands-On-Meta-Learning-with-Python 
即 可 。 如 果 代 码 更 新 了 ， 也 会 在 现 有 的 GitHub 仓库 上 更 新 。 


GitHub 网 站 PackPublishing 页 面 上 也 列 出 了 我 们 所 出 版 的 各 类 图 书 和 视频 的 代码 包 。 欢 迎 
查看 ! 
排版 约定 

本 书 采用 如 下 排版 约定 。 


文本 中 的 代码 采用 等 宽 字 体 ， 例 如 :“read image 函数 将 一 张 图 片 作为 输入 ， 并 返回 一 个 
NumPy 数组 。” 

代码 块 的 格式 如 下 : 

import re 


import numpy as np 
from PIL import Image 





黑体 字 : 表示 新 术语 、 重 要 的 词 ， 或 界面 上 显示 的 内 容 。 





(人 此 图 标 表示 警告 或 重要 信息 。 


6 此 图 标 表示 提示 或 读 窍 。 


保持 联系 


我 们 始终 欢迎 读者 的 反馈 。 








一 般 反 馈 : 如 果 你 对 本 书 有 任何 疑问 ， 请 通过 questions@packtpub.com 联 系 我 们 ， 并 在 邮件 
主题 中 注 明 书 名 。 























勘误 : 虽然 我 们 已 经 竭尽 全 力 来 确保 本 书 内 容 的 准确 性 ,但 错误 在 所 难免 。 如 果 你 发 现 书 中 
有 错 ， 请 告知 我 们 ， 我 们 将 不 胜 感激 。 请 访问 www.packtpub.com/submit-errata， 选 择 图 书 ， 点 击 
勘误 提交 表单 链接 ， 并 输入 详细 信息 。 
盗版 : 如 果 你 在 网 上 发 现 以 任何 形式 复制 我 们 作品 的 非法 行为 , 请 立即 将 地 址 或 网 站 名 称 
告知 我 们 ， 我 们 将 不 胜 感 激 。 请 联系 copyright@packtpub.com 提 供 有 盗版 嫌疑 的 链接 。 
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成 为 作者 : 如 果 你 是 某 个 领域 的 专家 ， 并 且 有 兴趣 编写 图 书 ， 请 访问 authors.packtpub.com。 


评论 

请 留 下 你 的 评论 。 阅 读 并 使 用 本 书 之 后 ,为 何不 在 购买 网 站 上 发 表 评 论 呢 ? 其 他 读者 可 以 参 
考 你 的 评价 来 做 出 购买 决定 ，Packt 出 版 社 可 以 了 解 你 对 我 们 产品 的 看 法 ， 作 者 也 可 以 看 到 你 对 
本 书 的 反馈 。 谢 谢 ! 


想 了 解 更 多 关于 Packt 的 信息 ， 


电子 书 
扫描 如 下 二 维 码 ， 即 可 购买 本 书 中 文 版 电子 版 。 


Ohmo 
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请 访问 packt.com。 
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元 学 习 简 介 











元 学 习 是 目前 人 工 智能 领域 最 有 前 景 和 最 热门 的 研究 方向 之 一 ， 被 视 为 实现 通用 人 工 智能 
(Artificial General Intelligence，AGI ) 的 基础 。 本 章 ， 我 们 将 学 习 什 么 是 元 学 习 ， 以 及 为 什么 元 
学 习 是 目前 人 工 智能 领域 最 令 人 兴奋 的 研究 方向 ; 了 解 什 么 是 少 样本 、 单 样本 和 零 样本 学 习 ， 以 
及 它们 在 元 学 习 中 的 应 用 ; 学 习 不 同类 型 的 元 学 习 技 术 ; 探索 “通过 梯度 下 降 来 学 习 如 何 通过 梯 
度 下 降 来 学 习 ”( learning to learn by gradient descent by gradient descent ) 的 概念 ， 以 及 如 何 使 用 元 
学 习 器 学 习 梯度 下 降 优 化 ; 了 解 如 何 将 优化 作为 一 个 模型 用 于 少 样本 学 习 , 并 看 到 如 何在 少 样本 
学 习 中 将 元 学 习 器 用 作 优 化 算法 。 


本 章 内 容 包括 : 


口 元 学 习 ; 

口 元 学 习 与 少 样本 学 习 ; 

口 元 学 习 的 类 型 ; 

口 通过 梯度 下 降 来 学 习 如 何 通过 梯度 下 降 来 学 习 ; 
口 少 样本 学 习 中 的 优化 模型 。 



























































1.1 元 学 习 


元 学 习 是 目前 人 工 智能 领域 中 一 个 令 人 振奋 的 研究 方向 。 随 着 大 量 研究 论文 的 发 表 和 人 研究 进 
展 的 取得 , 元 学 习 在 人 工 智能 领域 取得 了 重大 突破 。 在 开始 探讨 元 学 习 之 前 , 先 来 了 解 一 下 当前 
的 人 工 智能 模型 的 工作 原理 。 


近年 来 ， 随 着 生成 对 抗 网 络 和 胶 赛 网 络 等 优秀 算法 的 出 现 ， 深度 学 习 得 到 了 快速 的 发 展 。 但 
问题 是 , 深度 神经 网 络 需 要 大 规模 的 训练 集 来 训练 模型 。 当 数据 点 很 少时 ， 它 会 突然 失效 。 假 设 
我 们 训练 了 一 个 深度 学 习 模 型 来 执行 任务 A。 当 我 们 有 一 个 和 A 紧密 相关 的 新 任务 B 时 ， 就 不 
能 使 用 相同 的 模型 ， 而 是 需要 从 零 开始 为 任务 B 训练 模型 。 因 此 ， 虽然 每 个 任务 可 能 是 相关 的 ， 
但 都 需要 从 零 开始 训练 模型 。 




































































深度 学 习 真 的 是 真正 的 人 工 智 能 吗 ? 答案 是 否定 的 。 我 们 人 类 是 如 何 学 习 的 呢 ? 我 们 将 学 到 
的 东西 归纳 为 多 个 概念 并 从 中 学 习 。 不 过 目前 的 学 习 算 法 只 能 处 理 一 项 任务 。 这 就 是 元 学 习 的 用 
武之 地 。 元 学 习 能 够 生成 一 个 通用 的 人 工 智 能 模型 来 学 习 执 行 各 种 任务 ， 而 无 须 从 零 开 始 训练 它 
们 。 我 们 可 以 用 很 少 的 数据 点 来 训练 元 学 习 模 型 去 完成 各 种 相关 的 任务 ， 因 此 对 于 一 个 新 任务 ， 
元 学 习 模 型 可 以 利用 之 前 从 相关 任务 中 获得 的 知识 , 无 须 从 零 开 始 训练 。 许 多 研究 人 员 和 科学 家 
认为 ， 元 学 习 可 以 让 我 们 更 接近 AGI。 接 下 来 的 几 节 将 阐释 元 学 习 模型 如 何 学 会 学 习 的 过 程 。 



































元 学 习 与 少 样本 学 习 


少 样 本 学 习 ( few-shot learning ) 或 Kk 样本 学 习 (k-shotlearning ) 指 的 是 利用 较 少 的 数据 点 进 
行 学 习 ， 其 中 表示 数据 集 各 个 类 别 中 数据 点 的 数量 。 假 设 我 们 正在 对 狗 和 猫 的 图 像 进 行 分 类 。 
如 果 只 有 1 张 狗 的 图 像 和 1 张 猫 的 图 像 ， 那 就 叫 作 单 样本 学 习 ( one-shot learning )。 也 就 是 说 ， 
对 于 每 个 类 别 , 我 们 只 从 1 个 数据 点 学 习 。 如 果 有 10 张 狗 的 图 像 和 10 张 猫 的 图 像 , 那 就 叫 作 10 
样本 学 习 。 因 此 ,样本 学 习 中 的 表示 每 个 类 别 中 数据 点 的 数量 ,还 有 一 种 零 样本 学 习 ( zero-shot 
learning )， 即 所 有 类 别 中 都 没有 数据 点 。 等 等 ， 如 果 没 有 数据 点 ， 那 可 怎么 学 习 呢 ?在 这 种 情况 
下 , 我们 虽然 没有 数据 点 , 但 是 拥有 关于 每 个 类 别 的 元 信息 ， 并 将 从 中 学 习 。 因 为 数据 集中 有 两 
个 类 别 ， 即 狗 和 猫 ， 所 以 可 以 称 之 为 双 (n=2 ) 类 别 £ 样 本 学 习 一 一 n 表示 数据 集中 类 别 的 数量 。 


为 了 使 模型 从 少量 的 数据 点 中 学 习 , 我 们 将 用 同样 的 方法 训练 它们 。 因 此 ， 当 有 一 个 数据 集 
DD 时 ,我 们 从 数据 集中 的 每 个 类 别 中 挑选 几 个 数据 点 ， 称 之 为 支撑 集 ( support set )。 同 样 ， 从 每 
个 类 别 中 挑选 一 些 不 同 的 数据 点 , 称 之 为 查询 集 ( query set )。 于 是 , 我 们 用 一 个 支撑 集训 练 模型 ， 
并 用 查询 集 来 测试 模型 。 我 们 以 一 种 阶段 式 的 方式 ( episodic fashion ) 训练 模型 ， 即 在 每 个 阶段 
中 ， 从 数据 集 忆 中 抽取 少量 数据 点 ， 准 备 支 撑 集 和 查询 集 ， 并 使 用 支撑 集 进 行 训 练 ， 使 用 查询 集 
进行 测试 。 因 此 ,在 多 个 阶段 后 ， 模 型 将 学 会 如 何 从 较 小 的 数据 集中 学 习 。 接 下 来 的 章节 会 对 此 
进行 更 详细 的 探讨 。 
















































































1.2 元 学 习 的 类 型 
元 学 习 有 多 种 分 类 标准 , 例如 寻找 最 优 的 权重 集 与 学 习 优 化 器 。 我 们 将 元 学 习 分 为 以 下 3 类 : 


D 学 习 度量 空间 
口 学 习 初 始 化 
D 学 习 优化 器 

















1.2.1 学 习 度量 空间 


在 基于 度量 的 元 学 习 场 景 中 , 我 们 将 学 习 合 适 的 度量 空间 。 假设 我 们 想 学 习 两 幅 图 像 之 间 的 
相似 性 。 在 基于 度量 的 场景 中 , 我 们 使 用 一 个 简单 的 神经 网 络 从 两 幅 图 像 中 提取 特征 , 并 通过 计 
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算 两 幅 图 像 特 征 之 间 的 距离 找到 相似 性 。 这 种 方法 被 广泛 应 用 于 数据 点 较 少 的 少 样本 学 习 中 。 接 
下 来 的 章节 将 介绍 基于 度量 的 学 习 算法 ， 如 挛 生 网 络 、 原 型 网 络 和 关系 网 络 。 








1.2.2 学习 初 始 化 


在 这 个 方法 中 , 我 们 尝试 学 习 最 优 的 初始 参数 值 。 这 是 什么 意思 呢 ? 假 设 我 们 正在 构建 一 个 
申 经 网 络 来 对 图 像 进行 分 类 。 我 们 首先 初始 化 随机 权重 , 计算 损失 ,并 通过 梯度 下 降 来 最 小 化 损 
失 。 因 此 ,我 们 将 通过 梯度 下 降 找 到 最 优 权重 ,使 损失 最 小 。 如 果 不 随机 初始 化 权重 ,而 是 用 最 
优 值 或 者 接近 最 优 值 的 值 来 初始 化 权重 , 那么 就 可 以 更 快 地 收敛 , 并 快速 学 习 。 接 下 来 的 章节 将 
介绍 如 何 通 过 MAML 、Reptile 和 Meta-SGD 等 算法 来 精确 地 找到 这 些 最 优 的 初始 权重 。 
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1.2.3 学 习 优 化 器 


在 这 个 方法 中 , 我 们 尝试 学 习 优化 器 。 一 般 如 何 优化 神经 网 络 呢 ? 答案 是 通过 基于 大 数据 集 
的 训练 来 优化 神经 网 络 ， 并 使 用 梯度 下 降 来 最 小 化 损失 。 但 是 在 少 样本 的 学 习 场景 中 , 梯度 下 降 
失效 了 ， 因 为 我 们 的 数据 集 较 小 。 因 此 , 在 这 种 情况 下 ,我 们 将 学 习 优 化 器 本 身 。 我 们 将 有 两 个 
网 络 : 试图 学 习 的 基 网 络 和 优化 基 网 络 的 元 网 络 。 后 面 的 章节 会 详细 探讨 。 









































1.3 通过 梯度 下 降 来 学 习 如 何 通过 梯度 下 降 来 学 习 


现在 ， 我 们 来 看 一 个 有 趣 的 元 学 习 算 法 一 一 通过 梯度 下 降 来 学 习 如 何 通过 梯度 下 降 来 学 习 。 
这 个 名 字 是 不 是 有 点 吓人 ? 实际 上 , 它 是 最 简单 的 元 学 习 算法 之 一 。 我 们 知道 ， 在 元 学 习 中 , 目 
标 是 学 习 学 习 的 过 程 。 一 般 如 何 训练 神经 网 络 呢 ? 答案 是 通过 梯度 下 降 来 计算 损失 和 最 小 化 损失 
以 训练 网 络 。 因 此 ,我 们 使 用 梯度 下 降 法 来 优化 模型 。 如 果 不 使 用 梯度 下 降 ,， 我 们 能 自动 学 习 这 
个 优化 过 程 吗 ? 


但 是 应 该 如 何 学 习 呢 ? 我 们 用 递归 神经 网 络 ( RecurrentNeural Network，RNN ) 代替 传统 的 
梯度 下 降 优 化 器 。 这 是 如 何 实现 的 呢 ? 如 何 用 RNN 代替 梯度 下 降 法 ”如 果 你 仔细 观察 梯度 下 降 
的 行为 ， 就 会 发 现 , 它 基 本 上 是 一 个 从 输出 层 到 输入 层 的 更 新 序列 。 我 们 将 这 些 更 新 存储 在 一 个 
状态 中 ， 这 样 就 可 以 使 用 RNN 并 将 更 新 存储 在 RNN 单元 中 。 


该 算法 的 主要 思想 是 用 RNN 代替 梯度 下 降 法 。 但 问题 是 RNN 如 何 学 习 ? 如 何 优 化 RNN? 
为 了 优化 RNN, 我 们 使 用 梯度 下 降 法 。 简 而 言 之 ,我 们 正在 学 习 通 过 RNN 来 执行 梯度 下 降 ， 而 
这 个 RNN 是 通过 梯度 下 降 来 优化 的 。 这 就 是 该 算法 名 称 的 由 来 。 

我 们 称 RNN 为 优化 器 ， 称 基 网 络 (base network ) 为 优化 对 象 。 假 设 有 一 个 由 参数 0 影响 的 
模型 f 。 需 要 找到 这 个 最 优 参数 0 ， 以 将 损失 最 小 化 。 一般 情 况 下 ,通过 梯度 下 降 法 来 寻找 最 优 
参数 ， 但 现在 用 RNN 来 寻找 最 优 和 参数 。 因 此 ，RNN (优化 器 ) 找到 了 最 优 参数 并 将 其 发 送 给 优 
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化 对 象 ( 基 网 络 ), 优化 对 象 使 用 这 个 参数 , 计算 损失 , 并 将 损失 发 送 给 RNN。 基于 该 损失 , RNN 
通过 梯度 下 降 优化 自身 ， 并 更 新 模型 参数 0 。 

感到 困惑 吗 ?” 请 看 图 1-1: 优化 对 象 ( 基 网 络 ) 是 通过 优化 器 (RNN ) 优化 的 。 优 化 需 将 更 
新 后 的 参数 ( 即 权重 ) 发 送 给 优化 对 象 ， 优化 对 象 使 用 这 些 权 重 计算 损失 ， 并 将 损失 发 送 给 优化 
器 。 基 于 损失 ， 优 化 器 通过 梯度 下 降 来 改进 自身 。 


























更 新 参数 


化 对 象 
基 网 络 ) 








损失 
图 1-1 
假设 基 网 络 (优化 对 象 ) 以 9 作为 参数 ， 而 RNN (优化 器 ) 以 bj 作为 参数 。 优 化 器 的 损失 
函数 是 什么 ”我 们 知道 优化 右 ( RNN ) 用 于 减少 优化 对 象 ( 基 网 络 ) 的 损失 。 因 此 ， 优 化 器 的 损 
失 是 优化 对 象 的 平均 损失 ， 它 可 以 表示 为 
L(9)=E,[f(0(f,9))] 
怎样 才能 把 损失 降 到 最 低 呢 ?通过 梯度 下 降 找 到 合适 的 p 来 最 小 化 这 种 损失 。RNN 接受 什 


4 


么 作为 输入 ? 它 又 输出 什么 呢 ? 优化 锅 ， 也 就 是 RNN， 将 优化 对 象 的 梯度 V, 以 及 它 的 上 一 个 状 
态 广 作为 输入 ， 并 返回 条 出 一 一 可 以 最 小 化 优化 器 损失 的 更 新 8, 。 我 们 用 函数 m 来 表示 RNN: 























(g,,h) Ea m(V,,h,,$) 


以 上 方程 的 参数 解释 如 下 : 

口 V, 是 模型 和 (优化 对 象 ) 的 梯度 ， 即 V, = V,f(0); 

口 hh 是 RNN 的 隐藏 状态 ; 

口 8 是 RNN 的 参数 ; 

口 输出 g, 入 ,分 别 是 (提供 给 优化 器 的 ) 更 新 与 RNN 的 下 一 个 状态 。 






























































于 是 ， 可 以 使 用 2, = 0 +g, 来 更 新 模型 参数 值 。 
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如 图 1-2 所 示 , 优化 右 m 在 时 间 t 处 , 以 隐藏 状态 有 和 相对 于 6 的 梯度 V, 为 输入 , 计算 出 g， 
并 将 其 发 送 到 优化 对 象 ， 再 与 9 相 加 ， 成 为 下 一 步 更 新 的 2 。 





优化 对 象 





优化 崔 - 
h 








图 1-2 











由 此 ， 我 们 通过 梯度 下 降 学 会 了 梯度 下 降 优 化 。 








1.4 少 样 本 学 习 的 优化 模型 


我 们 知道 , 少 样本 学 习 基 于 较 少 的 数据 点 , 那么 如 何 将 梯度 下 降 应 用 到 少 样本 学 习 中 呢 ? 在 
少 样本 学 习 中 , 梯度 下 降 会 由 于 数据 点 非常 少 而 突然 失效 。 梯度 下 降 优 化 需要 更 多 的 数据 点 来 达 
到 收敛 和 损失 最 小 化 。 因 此 ,在 少 样本 学 习 中 需要 一 种 更 好 的 优化 技术 。 假设 有 一 个 由 参数 0 影 
响 的 模型 4。 我 们 用 一 些 随机 值 来 初始 化 参数 9 ,并 尝试 使 用 梯度 下 降 法 找到 最 优 值 。 让 我 们 回 
忆 一 下 梯度 下 降 的 更 新 方程 : 





0 = 0 EE QVo, L 
以 上 方程 的 参数 解释 如 下 : 


口 9 是 更 新 参数 ; 
口 0 ,是 上 一 步 的 参数 值 ; 
口 w, 是 学 习 率 ; 


口 VL 是 相对 于 0 的 损失 函数 的 梯度 。 

















梯度 下 降 的 更 新 方程 是 不 是 看 起 来 很 熟悉 ? 是 的 ， 你 猜 对 了 ， 它 类 似 于 长 短期 记忆 网 络 
(LSTM ) 的 细胞 状态 更 新 方程 ， 可 以 写成 : 











C=/f Oc ti 
可 以 将 LSTM 细胞 更 新 方程 与 梯度 下 降 完 全 对 应 起 来 ， 设 f =1 ， 可 得 : 





Cl 2 0 
Li = Ci 
C, = Vo, 也 























因此 ， 在 少 样本 学 习 中 ,可 以 使 用 LSTM 而 非 梯度 下 降 作 为 优化 器 。LSTM 是 元 学 习 带 , 它 
将 学 习 用 于 训练 模型 的 更 新 规则 。 因 此 , 我 们 使 用 两 个 网 络 : 一 个 是 基 学 习 器 , 它 学 会 执行 任务 ; 
另 一 个 是 元 学 习 器 ， 它 试图 找到 最 优 的 参数 。 这 是 如 何 实现 的 呢 ? 

我 们 知道 ，LSTM 使 用 遗忘 门 ( forget gate ) 来 丢弃 存储 器 中 不 需要 的 信息 ， 它 可 以 表示 为 

f= CGOw [hx ]+2,) 

这 个 遗忘 门 在 我 们 的 优化 场景 中 有 什么 用 呢 ? 假设 我 们 处 在 一 个 损失 很 大 , 梯度 接近 于 零 的 
人 位置。 怎样 才能 摆脱 这 种 局 面 呢 ? 在 这 种 情况 下 ， 可 以 收缩 模型 的 参数 ,并 忘记 其 前 一 个 值 的 某 
些 部 分 。 我 们 可 以 使 用 遗忘 门 来 实现 这 一 点 ， 它 以 当前 参数 值 96, 、 当 前 损失 ZL 、 当 前 梯度 V。 
以 及 前 一 个 遗忘 门 作为 输入 。 它 可 以 表示 为 


J CQW/ [OPVe ,+Dr) 


下 面 来 看 看 输入 门 (input gate )。 我 们 知道 LSTM 中 的 输入 门 是 用 来 决定 更 新 什么 值 的 ， 它 
可 以 表示 为 
























































i =o(w, [hi,x,]+b,) 

在 少 样本 学 习 中 ， 可 以 使 用 这 个 输入 门 来 调整 学 习 率 ， 从 而 在 防止 发 散 的 同时 快速 学 习 : 
i =0(w [9 1,L, Vo ,sil+b,) 

因此 ， 元 学 习 器 在 多 次 更 新 之 后 得 到 了 i 与 f 的 最 优 值 。 

可 是 ， 这 是 如 何 运作 的 呢 ? 


假设 有 一 个 由 0 影响 的 基 网 络 M 、 由 乡 影响 的 LSTM 元 学 习 器 及 ， 以 及 数据 集 D 。 我 们 将 
数据 集 分 割 为 训练 集 D™ 和 测试 集 Ps 。 首 先 随机 初始 化 元 学 习 器 参数 少 。 

在 7 次 近代 中 ,随机 从 D™ 中 抽取 数据 点 ， 计 算 损失 以 及 相对 于 模型 参数 0 的 损失 梯度 。 
将 这 个 梯度 、 损 失 和 元 学 习 融 参数 G 提供 给 元 学 习 带 。 元 学 习 器 会 返回 细胞 状态 c, ,然后 在 时 
间 i 将 基 网 络 M 的 参数 0 更 新 为 c 。 重 复 入 次 ， 如 图 1-3 所 示 。 












































1.4 少 样本 学 习 的 优化 模型 7 





fort= 1 …,7do 





和 和 < 一 De 中 的 一 批 随机 样本 








Loss, <— LMX;0,),Y) 


细胞 状态 (c) < AR((Vo, Loss, ,Loss),$) 


end for 











因此 ， 经 过 7 次 迭代 ， 我 们 会 得 到 一 个 最 优 和 参数 6. 。 不 过 如 何 检 查 9, 的 性 能 并 更 新 元 学 习 
器 参数 呢 ? 使 用 测试 集 和 参数 0. 计算 测试 集 的 损失 。 然后 , 计算 相对 于 元 学 习 器 参数 9 的 损失 梯 
度 ， 并 更 新 pg ， 如 图 1-4 所 示 。 























4 < Ds 


Loss <— LMX:0,),Y) 

















YLoss。 更 新 人 





图 1-4 
迭代 n 次， 并 更 新 元 学 习 絮 。 完 整 的 算法 如 图 1-5 所 示 。 


gu < 一 随机 初始 化 
ford= 1,.…,n do 


Dem, De < 一 数据 集 亿 中 的 随机 样本 

















0 < oo, 
for t=1,.……, 7T do 
各 < 一 Drm 中 的 一 批 随机 样本 
Loss, <— L(MX,;0, 1),Y) 
细胞 状态 〈c) < 一 R((V， Loss,,Loss,),$,) 
0 eo 
end for 


X,Y <— Dest 


Loss <— LMX; 0,),Y) 


test 

















]V。， Loss 更 新 9 


end for 














我 们 首先 学 习 了 什么 是 元 学 习 , 以 及 如 何在 元 学 习 中 使 用 单 样本 学 习 、 少 样本 学 习 和 零 样本 
学 习 , 并 了 解 到 支撑 集 和 查询 集 与 训练 集 和 测试 集 十 分 相似 , 只 不 过 每 个 类 别 中 都 有 大 个 数据 点 ， 
还 知道 了 nn 类 别 k 样 本 学 习 的 含义 。 然 后 ,我 们 了 解 了 不 同类 型 的 元 学 习 技术 ,探讨 了 通过 梯度 
下 降 来 学 习 如 何 通过 梯度 下 降 来 学 习 ， 并 知道 了 如 何 使 用 RNN 作为 优化 带 优 化 基 网 络 。 之 后 ， 
我 们 将 优化 看 作 一 个 用 于 少 样本 学 习 的 模型 ， 并 将 LSTM 用 作 元 学 习 器 在 少 样本 学 习 中 进行 优化 。 
























































1.6 思考 题 


(1) 什么 是 元 学 习 ? 

(2) 什么 是 少 样本 学 习 ? 

(3) 什么 是 支撑 集 ? 

(4) 什么 是 查询 集 ? 

(5) 基于 度量 的 学 习 又 称 为 什么 ? 
(6) 如 何在 元 学 习 中 进行 训练 ? 











1.7 ”延伸 阅读 


口 通过 梯度 下 降 来 学 习 如 何 通 过 梯度 下 降 来 学 习 : 参见 Marcin Andrychowicz、Misha Denil、 
Sergio Gomez 等 人 的 文章 Learning to Learn by Gradient Descent by Gradient Descent。 

口 少 样本 学 习 场 景 下 的 优化 模型 :参见 Sachin Ravi 和 Hugo Larochelle 的 文章 Optimization as 
a Model for Few-shot Learning Setting。 
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使 用 李 生 网 络 进 行人 胎 识 别 ” 
与 音频 识别 





























在 上 一 章 , 我 们 学 习 了 什么 是 元 学 习 以 及 有 哪些 不 同类 型 的 元 学 习 技术 , 介绍 了 通过 梯度 下 
降 来 学 习 如 何 通 过 梯度 下 降 来 学 习 ， 并 将 优化 作为 少 样本 学 习 的 一 个 模型 。 在 本 章 , 我 们 将 学 习 
一 种 十 分 常用 的 基于 度量 的 单 样本 学 习 算 法 一 一 挛 生 网 络 ， 了 解 它 们 如 何 从 很 少 的 数据 点 中 学 
习 ， 以 及 如 何 使 用 它们 来 解决 低 数据 问题 (low data problem ); 随后 详细 探讨 挛 生 网 络 的 架构 ， 
并 了 解 挛 生 网 络 的 一 些 应 用 ; 最 后 学 习 如 何 使 用 挛 生 网 络 建立 人 脸 识 别 模型 和 音频 识别 模型 。 


本 童 内 容 包括 : 


口 什么 是 挛 生 网 络 ; 

口 挛 生 网 络 的 架构 ; 

口 挛 生 网 络 的 应 用 ; 

D 使 用 挛 生 网 络 进行 人 脸 识别 ; 

D 使 用 挛 生 网 络 建立 音频 识别 异型 。 

















2.1 什么 是 挛 生 网 络 


杰 生 网 络 是 一 种 特殊 的 神经 网 络 ， 是 最 简单 、 最 常用 的 单 样 本 学 习 算 法 之 一 。 正 如 第 1 章 
所 说 ， 单 样本 学 习 在 每 个 类 别 中 只 学 习 一 个 训练 实例 。 因 此 ， 挛 生 网 络 主要 用 于 各 类 别 数据 点 
较 少 的 应 用 中 。 例 如 ， 我 们 想 为 组 织 建立 一 个 人 脸 识 别 模型 ， 而 组 织 中 大 约 有 500 人 。 如 果 我 
们 想 用 卷 积 神经 网 络 ( Convolutional Neural Network，CNN ) 从 零 开 始 建 立 人 脸 识 别 模 型 ， 那么 
需要 这 500 个 人 的 很 多 图 像 来 训练 网 络 并 获得 良好 的 精度 ， 但 显然 我 们 不 会 有 这 500 个 人 的 太 
多 图 像 ， 因 此 除非 有 足够 的 数据 点 ， 否 则 使 用 CNN 或 任何 深度 学 习 算 法 来 建立 模型 并 不 可 行 。 
这 种 情况 下 ,可 以 使 用 复杂 的 单 样本 学 习 算法 来 解决 问题 ， 比 如 挛 生 网 络 ， 它 可 以 从 较 少 的 数据 
点 中 学 习 。 












































10 第 2 章 使 用 挛 生 网 络 进 行人 脸 识别 与 音频 识别 





但 挛 生 网 络 是 如 何 运 作 的 呢 ? 挛 生 网 络 大 致 上 由 两 个 对 称 的 神经 网 络 组 成 , 它们 具有 相同 的 
权重 和 架构 , 并 在 最 后 由 能 量 函 数 E 连接 在 一 起 。 我 们 的 计生 网 络 的 目标 是 了 解 两 个 输入 值 是 否 
相似 。 假 设 有 两 幅 图 像 卫 和 XX, ， 我 们 想 知 道 这 两 幅 图 像 是 否 相 似 。 









































如 图 2-1 所 示 ， 我 们 将 图 像 马 提供 给 网 络 A， 将 图 像 X, 提供 给 网 络 B。 这 两 个 网 络 的 作用 
都 是 为 输入 图 像 生成 嵌入 (embedding )， 即 特征 向 量 ( feature vector )。 因 此 ， 我 们 可 以 使 用 任意 
产生 人 藤 和 的 网 络 。 因 为 输入 是 一 个 图 像 ， 所 以 可 以 使 用 卷 积 网 络 来 生成 嵌入 ， 也 就 是 提取 特征 。 
记 住 ，CNN 在 这 里 的 作用 只 是 提取 特征 而 不 是 分 类 。 我 们 知道 这 些 网 络 应 该 有 相同 的 权重 和 架 
构 ， 如果 网 络 A 是 一 个 三 层 CNN, 那么 网 络 B 也 应 该 是 一 个 三 层 CNN, 我 们 必须 为 这 两 个 网 络 
使 用 相同 的 权重 。 因 此 ， 网 络 A 和 网 络 B 将 分 别 给 出 输入 图 像 卫 和 XX, 的 艇 入 。 然 后 ， 我 们 将 
这 些 能 人 提供 给 能 量 函数 , 它 会 给 出 这 两 个 输入 的 相似 程度 。 能 量 函 数 基本 上 可 以 是 任何 相似 性 
度量 ， 如 欧 氏 距离 和 余弦 相似 度 。 




























































































能 由 呈 数 











网 络 A 


立 像 所 网 像 总 





图 2-1 


李 生 网 络 不 仅 用 于 人 脸 识别 , 而 且 还 广泛 用 于 数据 点 较 少 的 应 用 以 及 需要 学 习 两 个 输入 之 间 
相似 性 的 任务 中 。 挛 生 网 络 的 应 用 包括 签名 验证 、 相 似 问 题 检 索 、 目 标 跟 踪 等 。 下 一 节 将 详细 研 
究 李 生 网 络 。 








2.1.1 挛 生 网 络 的 架构 
对 本 生 网 络 有 了 基本 的 了 解 后 ， 我 们 将 对 其 进行 详细 介绍 。 它 的 架构 如 图 2-2 所 示 。 


如 图 2-2 所 示 ， 挛 生 网 络 由 两 个 相同 的 网 络 组 成 ， 它 们 具有 相同 的 权重 和 架构 。 假 设 有 两 个 
输入 , XZ 和, -把 输入 总 输入 网 络 A, 也 就 是 f,(X) ,并 把 输入 X, 输 入 网 络 B, 也 就 是 f,(X,)。 
你 会 注意 到 ， 这 两 个 网 络 有 相同 的 权重 w， 它 们 会 为 输入 ( 针 和 XY，) 生成 虞 入 。 然 后 ， 将 这些 









































仍 入 提供 给 能 量 函 数 已 ， 即 可 得 到 两 个 输入 之 间 的 相似 性 。 



















网 络 A 
fi(X) 














图 2-2 


表达 式 如 下 : 
E, (Xi,X,)=| f,(X)— 1,(X,) | 


假设 我 们 用 欧 氏 距离 作为 能 量 函 数 ， 如 有 果 铸 和 XX, 相似, 那么 的 值 会 较 小 。 如 果 输 入 值 不 
相似 ， 那 么 的 值 会 很 大 。 


假设 有 两 个 句子 ,句子 1 和 句子 2。 将 句子 1 输入 网 络 A， 句子 2 输入 网 络 B。 假 设 网 络 A 
和 网 络 B 都 是 LSTM 网 络 ， 且 权重 相同 。 因 此 ， 网 络 A 和 网 络 B 将 分 别 为 句子 1 和 句子 2 生成 
词 伐 入 。 然 后 ,将 这 些 能 人 输入 能 量 函 数 ， 从 而 得 到 两 个 句子 之 间 的 相似 度 。 但 是 如 何 训练 挛 生 
网 络 呢 ? 数据 应 该 是 怎样 的 ? 特征 和 标签 是 什么 ? 我 们 的 目标 函数 是 什么 ? 

谈 生 网 络 的 输入 (X,Y, ) 应 该 成 对 出 现 ， 它 们 的 二 元 标签 (binary label ) Ye {0,1 代表 输入 


对 是 正 样本 对 ( genuine pair， 相 同 ) 还 是 负 样本 对 (imposite pair， 不 同 )。 我 们 有 如 表 2-1 所 示 
的 句子 对 ， 从 标签 可 以 看 出 句子 对 是 正 〈1 ) 还 是 负 (0): 




































































表 2-1 
句子 对 标 签 
She is a beautiful girl She is a gorgeous girl 1 
Birds fly in the sky What are you doing 0 
I love Paris I adore Paris 1 
He just arrived Iam watching a movie 0 
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那么 , 挛 生 网 络 的 损失 函数 是 什么 呢 ? 由 于 挛 生 网 络 的 目标 不 是 执行 分 类 任务 ,而 是 理解 两 
个 输入 值 之 间 的 相似 性 ， 因 此 我 们 使 用 了 对 比 损失 函数 。 


它 的 表达 式 如 下 : 





对 比 损失 = 了 (CE) +(1- 了 max(margin— E,0) 
在 上 式 中 , 了 代表 真实 标签 ( true label )， 当 两 个 输入 值 相似 时 为 1， 当 两 个 输入 值 不 相似 时 
为 0。E 是 能 量 函 数 ， 它 可 以 是 任何 距离 度量 。 变 量 margin 用 于 保存 约束 ， 也 就 是 说 ， 当 两 个 输 
入 值 不 相似 时 ， 如 果 它 们 的 距离 大 于 margin 的 值 ， 那 么 就 不 会 导致 损失 。 






































2.1.2” 挛 生 网 络 的 应 用 


正如 我 们 所 理解 的 , 挛 生 网 络 通过 使 用 相同 的 架构 在 两 个 输入 值 之 间 寻 找 相 似 性 来 学 习 。 在 
涉及 计算 两 个 实体 之 间 相 似 性 的 任务 中 , 它 是 最 常用 的 少 样本 学 习 算法 之 一 。 它 功能 强大 、 稳 健 ， 
可 以 作为 低 数 据 问题 的 解决 方案 。 


在 关于 挛 生 网 络 的 第 一 篇 论文 (Signature Verification Using a “Siamese” Time Delay Neural 
Network， 作 者 为 Jane Bromley、Isabelle Guyon 、Yann LeCun 等 人 ) 中 ， 作 者 前 述 了 挛 生 网 络 对 
于 签名 验证 任务 的 意义 。 签 名 验证 任务 的 目标 是 识别 签名 的 真实 性 ,因此 ,作者 用 正 样本 签名 对 
和 和 负 样 本 签名 对 训练 了 挛 生 网 络 , 利用 卷 积 网 络 从 签名 中 提取 了 特征 , 然后 通过 测量 两 个 特征 向 
量 之 间 的 距离 来 识别 相似 性 。 当 一 个 新 的 签名 出 现时 , 提取 这 些 特征 并 将 它们 与 存储 的 签名 者 特 


征 向 量 进行 比较 ， 如 果 距 离 小 于 某 个 阐 值 ， 则 接受 签名 是 真实 的 ， 反 之 则 拒绝 签名 。 


挛 生 网 络 也 广泛 应 用 于 自然 语言 处 理 (NLP ) 任务 中 。 在 一 篇 有 趣 的 论文 Learning Text 
Similarity with Siamese Recurrent Networks 中 ,作者 Paul Neculoiu .Maarten Versteegh 和 Mihai Rotaru 
使 用 挛 生 网 络 计算 文本 相似 度 。 他 们 使 用 挛 生 网 络 作为 双向 单元 , 使 用 余弦 相似 度 作为 能 量 函 数 ， 
来 计算 文本 之 间 的 相似 度 。 


杰 生 网 络 的 应 用 范围 相当 广泛 , 它们 可 以 组 装 在 各 种 架构 中 ,用 于 执行 各 种 任务 ,比如 人 类 
动作 识别 、 场 景 变 化 检测 和 机 器 翻译 等 。 






























































2.2 ”使 用 挛 生 网 络 进 行人 脸 识别 


我 们 将 通过 建立 人 脸 识别 模型 来 了 解 挛 生 网 络 。 我 们 的 挛 生 网 络 的 目的 是 理解 两 张 脸 相似 与 
否 。 我 们 将 使 用 AT&T 的 人 脸 数据 库 。 


下 载 并 解压 AT&T 的 人 脸 数据 库 文件 后 ， 可 以 看 到 s1 、s2 一 直到 s40 文件 夹 ， 如 图 2-3 
所 示 。 
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图 2-3 


每 个 文件 夹 都 有 同一 个 人 从 不 同 角度 拍摄 的 10 张 照片 。 例 如 ， 打 开 文 件 夹 s1， 可 以 看 到 同 
一 个 人 的 10 张 不 同 的 照片 ， 如 图 2-4 所 示 。 
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图 2-4 
我 们 打开 并 检查 文件 夹 s13， 如 图 2-5 所 示 。 
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图 2-5 


因为 我 们 知道 挛 生 网 络 要 求 输入 值 成 对 并 人 带 有 标签 , 所 以 必须 以 这 种 方式 创建 数据 。 我 们 从 
同一 个 文件 夹 中 随机 取出 两 张 图 像 , 并 将 它们 标记 为 正 样本 对 ; 从 两 个 文件 夹 中 分 别 取 出 一 张 图 
像 ， 并 将 它们 标记 为 负 样本 对 。 如 图 2-6 所 示 ， 正 样本 对 的 照片 上 是 同一 个 人 ， 而 负 样 本 对 的 照 
片上 是 不 同 的 人 。 
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有 了 成 对 的 数据 以 及 标签 , 就 可 以 训练 变 生 网 络 了 。 我 们 将 图 像 对 中 的 一 个 图 像 输 入 网 络 A， 
另 一 个 图 像 输入 网 络 B。 这 两 个 网 络 的 作用 只 是 提取 特征 向 量 。 我 们 使 用 带 有 整流 线性 单元 
( rectified linear unit，ReLU ) 激活 函数 的 两 个 卷 积 层 提取 特征 。 一 旦 学 习 了 特征 ， 我 们 就 把 两 个 
网 络 输出 的 特征 向 量 输入 能 量 函 数 ， 用 于 测量 相似 度 (用 欧 氏 距离 作为 能 量 函 数 )、 因 此 ， 我 们 
通过 输入 图 像 对 来 训练 网 络 ， 以 学 习 它 们 之 间 的 语义 相似 度 。 下 面 ， 我 们 一 步 一 步 来 分 析 。 


为 了 更 好 地 理解 ， 可 以 在 GitHub 网 站 搜索 Hands-On-Meta-Learning-With-Python， 在 带 有 注 
释 的 Jupyter Notebook 中 查看 相应 代码 。 


首先 ， 导 入 所 需 的 库 : 


impor 









































t re 
import numpy as np 
from PIL import Image 


from sklearn.model_ selection import train test_ split 

from keras import backend as K 

from keras.layers import Activation 

from keras.layers import Input, Lambda, Dense, Dropout, Convolution2D, 
MaxPooling2D, Flatten 

from keras.models import Sequential, Model 

from keras.optimizers import RMSprop 





现在 ,定义 一 个 函数 来 读 取 输入 图 像 。reag image 函数 以 图 像 为 输入 ,返回 一 个 NumPy 
数组 : 


def read_ image (filename, byteorder='>'): 
# 首 先 将 图 像 以 raw 格式 读 入 缓冲 区 
with open(filename, 'rb') as f: 
buffer = f.read() 
# 使 用 regex 提取 图 片 的 头 部 (header) 、 宽 度 (width) 、 高 度 (height) 以 及 最 大 值 (maxval) 
header, width, height, maxval = re.search( 
b"(^P5\S (2 NSX 井 [NEND] )*" 
b"(\d+)\s(?:\s*#.*[\r\n])*" 
b"(\d+)\s(?:\s*#.*[\r\n])*" 
b"(\d+)\s(?:\s*#.*[\r\n]\s)*)", buffer) .groups() 
# 然 后 ， 使 用 np .frombuffer (该 函数 用 于 将 缓冲 区 转换 为 一 维 数组 ) 将 图 像 转换 为 NumPy 数组 
return np .frombuftfer(buftfer， 
dtype='ul' if int(maxval) < 256 else 
byteorder+'u2', 
count=int (width)*int (height), 
offset=len (header) 
) .reshape( (int (height), int (width))) 


例如 ， 打 开 一 个 图 像 ( 见 图 2-7 ): 


Image.open("data/orl_faces/s1/1 .pgm") 


16 第 2 章 











当 我 们 将 图 像 输 入 read image 函数 时 ,会 返回 一 个 NumPy 数组 : 


img = read_image('data/orl_faces/s1/1.pgm') 
img .shape 
(CEL2, 2) 


现在 定义 男 一 个 函数 get_data 来 生成 数据 。 正 如 我 们 所 知 , 对 于 挛 生 网 络 , 数据 应 该 是 成 
对 的 (正和 人 负 )， 并 带 有 二 元 标签 。 


首先 从 同一 个 目录 中 读 取 (imgl, img2) 图 像 ,将 它们 存储 在 x_genuine_paiz 数组 中 ,并 
将 y_genuine 赋值 为 1。 然后 , 从 不 同 目录 读 取 (img1, img2) 图 像 ,将 它们 存储 在 x_imposite 
对 中 ， 并 将 y_ imposite 赋值 为 0。 























最 后 ， 我 们 将 x genuine pair 和 x imposite 拼接 ( concatenate ) 成 Xs 将 y_genuine 


和 y_imposite 拼接 成 Y: 


size = 2 
total_sample_size = 10000 





def get_data(size, total_ sample size): 





# 读 取 图 像 

image = read image('data/orl]_faces/s' + str(1) + '/' + str(1) + '.pgm','rw+') 
# 缩 减 尺寸 

image = image[::size, ::size] 

# 获 取 新 尺寸 


diml = image.shape[0] 
dim2 = image.shapel[l1] 


GD 三" 浊 
# 使 用 [total_sample，no_of_pairs，diml，dim2] 的 形状 初始 化 Numpy 数组 
x_geuine_pair = np.zeros([total_sample_size，2，1，diml，dim2]) # 参数 值 2 代表 一 
对 样本 
y_genuine = np.zeros([total_sample_ size, 1]) 
for i in range(40): 
for j in range(int (total_sample_ size/40)): 





ind1l © 0 

J 0 

# 从 同一 个 目录 中 读 取 图 像 ( 正 样本 对 ) 
while indql == ind2 : 


indl = np.random.randint (10) 
ind2 = np.random.randint (10) 


# 读 取 两 个 图 像 
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imgl = freadq_image('dqata/or1l_faces/S' + str(i+1) + '/' + 
str(indl + 1) + '.pgm', 'rw+') 

img2 = read_ image('data/orl_ faces/s' + str(i+1) + '/' + 
str(ind2 + 1) + '.pgm', 'rw+') 

# 缩 减 尺寸 

imgl = imgl[::size, ::size 

img2 = img2[::size, ::size 

# 将 图 像 存 入 已 初始 化 的 NumPy 数组 中 

X_geuine_pair[count，0，0，:，:] = imgl 

x_geuine pair[count, 1, 0, :, :] = img2 

# 因 为 我 们 是 从 同一 目录 中 取出 图 像 的 ， 所 以 为 其 分 配 标签 1 ( 正 样本 对 ) 

y_genuine[count] = 1 


count += 1 


GOUunt 0 
x_imposite pair = np.zeros([total_sample_ size, 2, 1, diml, dim2]) 
y_imposite = np.zeros([total_sample_size, 1]) 
for i in range(int (total_sample size/10)): 
for j in range(10): 
# 从 不 同 的 目录 中 读 取 图 像 ( 负 样 本 对 ) 
while True: 
indl = np.random.randint (40) 
ind2 = np.random.randint (40) 





if -indl = Tnd2: 
break 

imgl = read_ image('data/orl]l_ faces/s' + str(ind1l+1) + '/' + 
str(j + 1) + '.pgm', 'rw+') 

img2 = read_ image('data/orl]l_ faces/s' + str(ind2+1) + '/' + 
str(j + 1) + '.pgm', 'rw+') 

imgl = imgl[::size, ::sizel] 

img2 = img2[::size, ::sizel] 

x_imposite pair[count, 0, 0, :, :] = imgl 

x imposite pair[count, 1, 0, :, :] = img2 

# 因 为 我 们 是 从 不 同 的 目录 中 取出 图 像 的 ， 所 以 为 其 分 配 标签 0 ( 负 样本 对 ) 

y_imposite[count] = 0 


count += 1 
# 现 在 ， 将 正 样本 对 与 负 样 本 对 拼接 成 完整 的 数据 
xX = np.concatenate([x_geuine pair, x_imposite pair], axis=0)/255 
Y = np.concatenate([y_genuine, y_imposite], axis=0) 








return. XY 


现在 ,我们 生成 数据 并 检查 数据 大 小 。 如 你 所 见 ， 我们 有 20 000 个 数据 点 ， 其 中 10 000 个 
是 正 样 本 对 ， 其 余 的 10 000 个 是 负 样 本 对 : 


XxX, Y = get_datal(size, total_sample_ size) 

















XxX.shape 
(2:0.0.00,. 27 ‘1 556 46.) 


Y.shape 
(20000, 1) 
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于 特 生 


接 下 来 ,我们 将 数据 划分 为 73% 的 训练 数据 和 25% 的 测试 数据 : 


x_train, x_ test，yYy _ train，yYy test = train test_split(x, Y, test_size=.25) 

















现在 我 们 已 成 功 地 生成 了 数据 ， 下 面 构建 挛 生 网 络 。 首 先 ,定义 基 网 络 ， 它 基本 上 是 一 个 用 











层 与 一 个 扁平 化 层 (flat layer ): 


def buil1dq_base_network (input_shape): 

seq = Sequential() 

ne fildteF E26 .421 

kernel_ size = 3 

# 卷 积 层 1 

seq.add (Convolution2D(nb_ filter[0], kernel_ size, kernel_ size, 
input_shape=input_shape, 

border_mode='valid', dim ordering='th')) 

seq.add (Activation('relu')) 

seq.add (MaxPooling2D (pool_size=(2, 2))) 

seq.add (Dropout (.25) 

# 卷 积 层 2 

seq.add (Convolution2D(nb_ filter[1], kernel_ size, kernel_ size, 
border_ mode='valid', dim ordering='th')) 

seq.add (Activation('relu')) 

seq.add (MaxPooling2D(pool_size=(2, 2), dim ordering='th')) 

seq.add (Dropout (.25) 





# 扁 平 化 层 

seq.add (Flatten()) 

seq.add (Dense(128, activation='relu')) 
seq.add (Dropout (0.1) 

seq.add (Dense(50, activation='relu')) 
return seq 


接 下 来 把 图 像 对 输入 基 网 络 ， 它 将 返回 做 入 ， 即 特征 向 量 : 


input_dim = X_train.shape[2:] 
img_a = Input (shape=input_dim) 
img_b = Input (shape=input_dim) 

















base_network = build base network (input_dim) 
feat_vecs_a = base_ network (img_a) 
feat_vecs_b = base_ network (img_b) 


feat vecs a 和 feat vecs b 是 图 像 对 的 特征 向 量 。 接 下 来 把 这 些 特 征 向 量 输入 能 
计算 它们 之 间 的 距离 ， 并 使 用 欧 氏 距离 作为 能 量 函 数 : 
def euclidean distance(vects): 


汶 CL 
return K.sqrt (K.sum(K.square(x - y), axis=1, keepdims=True)) 











def eucl_dist_output_shape (shapes): 
shapel, shape2 = shapes 
return (shapel[0], 1) 


E 提 取 的 卷 积 网 络 。 我 们 建立 两 个 均 带 有 ReLU 激活 函数 和 最 大 池 化 (max pooling ) 的 卷 积 


量 函 
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distance = Lambda (euclidean distance, 
output_shape=eucl_ dist_output_shape) ([feat_vecs_a, feat_ vecs_b]) 


现在 将 轮 数 设置 为 13， 并 使 用 RMS prop 进行 优化 ， 定 义 模型 : 


epochs: =- 13 
rms = RMSprop () 





model = Model (input=[input_a, input_b], output=distance) 


接 下 来 将 损失 函数 定义 为 contrastive loss 函数 ， 并 编译 模型 ; 


def contrastive_loss(y_true，yYy_pred) : 

margin = 1 

return K.meanl(ly_true * K.squarel(ly_pred) + (1 - y_true) * 
K.square(K.maximum(margin - y_pred, 0))) 








model.compile(loss=contrastive_loss, optimizer=rms) 


现在 训练 模型 : 


LNo LE trEain [ss 0] 
LMo2 © XtrainLs .1] 


model.fit([img_1, img_ 2], y_train, validation split=.25, batch size=128, 
verbose=2, nb_epoch=epochs) 


可 以 看 到 ,损失 是 如 何 随 着 训练 轮 数 增加 而 减少 的 : 











Train on 11250 samples, validate on 3750 samples 
Epoch 1/13 

- 60s - loss: 0.2179 - val_loss: 0.2156 
Epoch 2/13 

-D38 -TEOSS: O01520,. ~ Val L108s: 0.2102 
Epoch 3/13 

-38 = TOSS SS 0:L545 
Epoch 4/13 

= D598 -0S8: 0.0959 val Loss: 051705 
BBOCh 5/AL3 

DS SLOSS 0080l. = Val Loss O1181L 
Epoch 6/13 

- 52s - loss: 0.0684 - val_loss: 0.0821 
Epoch 7/13 

= LOSSr .009 = Val- los 00762 
Epoch 8/13 

= 2B = Loss .050b26 ="Val- losss: 00655 
Epoch 9/13 

- 52s - loss: 0.0475 - val_loss: 0.0662 
Epoch 10/13 

- 52s - loss: 0.0444 - val._loss: 0.0469 
Epoch 11/13 

- 52s - loss: 0.0408 - val_loss: 0.0478 
Epoch 12/13 

-D28 = LOSB: 0x0381 = Val L1088: 0.0498 
Epoch 13/13 

- 54s - loss: 0.0356 - val_loss: 0.0363 
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现在 使 用 测试 数据 进行 预测 : 
pred = model.predict([x_test[:, 0], x_ test[:, 1]]) 
接 下 来 定义 一 个 函数 来 计算 准确 率 : 


def compute_accuracy (predictions, labels): 
return labels[predictions.ravel() < 0.5] .mean() 


下 面 是 模型 的 准确 率 : 


compute_accuracy (pred, y_test) 





0.9779092702169625 


2.3 ”使 用 挛 生 网 络 进行 音频 识别 


在 上 一 节 , 我 们 了 解 了 如 何 使 用 挛 生 网 络 来 识别 人 脸 。 下 面 我 们 来 看 看 如 何 使 用 挛 生 网 络 来 
识别 音频 。 我 们 将 训练 网 络 来 区 分 狗 和 猫 的 叫 声 。 猫 狗 音 频数 据 集 可 以 从 这 里 下 载 : https:/www. 


kaggle.com/mmoreaux/audio-catsand-dogs#cats dogs.zip。 











下 载 后 ， 将 数据 分 成 3 个 文件 夹 : Dogs、Sub dogs 和 Cats。 在 Dogs 和 Sub_dogs 中 存放 狗 
叫 声 的 音频 ， 在 Cats 中 存放 猫 叫 声 的 音频 。 我 们 网 络 的 目标 是 识别 出 声音 是 狗 叫 声 还 是 其 他 声 
音 。 我 们 知道 ， 对 于 挛 生 网 络 ， 需 要 将 数据 成 对 输入 。 我 们 从 Dogs 和 Sub_dogs 中 各 选择 一 个 音 
频 并 将 其 标记 为 一 个 正 样本 对 ， 从 Dogs 和 Cats 中 各 选择 一 个 音频 并 将 其 标记 为 一 个 负 样 本 对 。 
也 就 是 说 ，(dogs, subdogs) 是 正 样本 对 ，(dogs, cats) 是 负 样 本 对 。 












































下 面 我 们 一 步 一 步 地 展示 如 何 训练 挛 生 网 络 来 识别 出 声音 是 狗 叫 声 还 是 其 他 声音 。 


为 了 更 好 地 理解 ， 可 以 在 GitHub 网 站 搜索 Hands-On-Meta-Learning-With-Python ， 在 带 有 注 
释 的 Jupyter Notebook 中 查看 相应 代码 。 


首先 ， 导 入 所 有 需要 的 库 : 


# 导 入 基本 的 库 

import glob 

import IPython 

from random import randint 





# 数 据 处 理 
import librosa 
import numpy as np 


# 建 模 


from sklearn.model_ selection import train test_split 


from keras import backend as K 
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from keras.layers import Activation 

from keras.layers import Input, Lambda, Dense, Dropout, Flatten 
from keras.models import Model 

from keras.optimizers import RMSprop 


加 载 并 聆听 如 下 音频 片段 : 


IPython.display.Audio("data/audio/Dogs/dog_barking_0.wav") > 


IPython.display.Audio("data/audio/Cats/cat_13 .wav") 


那么 , 如 何 将 这 些 原 始 音频 输入 网 络 中 呢 ? 如 何 从 原始 音频 中 提取 有 意义 的 特征 呢 ? 众 所 周 
知 ,神经 网 络 只 接受 向 量化 的 输入 ， 因 此 需要 将 音频 转换 成 特征 向 量 。 该 怎么 做 呢 ? 可 以 通过 几 
种 机 制 为 音频 生成 嵌入 。 一 个 党 用 的 机 制 是 梅 尔 频 率 倒 谱系 数 ( Mel-Frequency Cepstral 
Coefficients, MFCC )。 它 使 用 对 数 功率 谱 的 线性 余弦 变换 在 非 线 性 梅 尔 频率 范围 内 转换 音频 的 短 
期 功率 谱 。 要 了 解 更 多 关于 MFCC 的 信息 ， 请 查看 PRACTICAL CRYPTOGRAPHY 网 站 上 的 优 
秀 教程 Mel Frequency Cepstral Coefficient (MFCC) Tutorial, 


我 们 将 使 用 librosa 库 中 的 MFCC 孔 数 来 生成 音频 组 入 。 因 此 ,定义 一 个 名 为 audio2vector 
的 函数 ， 它 返回 给 定 音 频 文件 的 音频 授 入 : 
def audio2vector (file path, max_pad_ len=400): 


# 读 取 音 频 文 件 


audio, sr = librosa.load(file path, mono=True) 












































# 缩 减 形 状 
audio. = audiol :3 


# 使 用 MFCC 提取 音频 识 入 


mfcc = librosa.feature.mfcc(audio, sr=sr) 
# 由 于 不 同音 频 的 音频 谋 入 长 度 各 不 相同 ,我 们 将 最 大 长 度 设 为 400 
# 使 用 0 填充 


pad_width = max_pad_ len - mfcc.shapel[l1] 
mfcc = np.pad(mfcc, pad width=((0, 0), (0, pad width)), 
mode='constant') 


return mfcc 


我 们 将 加 载 一 个 音频 文件 ， 并 查看 其 著 入 : 


audqio file = 'dqata/audio/Dogs/dog_barking_ 0.wavV' 
audio2vector (audio_file) 
array([ [297 .5490512975 .=288..37618855;)" =314.92037769;. :3 Qi 
Oi Ox ] 2 
23.05969394， 9.-55913148;, BY OLLI ,i,. Ti 0. 
0 . (9p 本 
122.:062995237 =1195.02627567; S108.187030567 cu 0. 
0 . 7 Qs ] 字 
-6.40930836， -2.8602708 ， -2.12551478， ...， 0 . 
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Qa 0» ]， 
[ D0572914 9 sk 0 a Qs 
Os p 0. 到 
[ -6.08997702， -11.40687886， -18.2415214 ， i 0 . 
sw / Qe ]]) 





了 解 了 如 何 生 成 音频 散 入 后 , 需要 为 计生 网 络 创 建 数据 。 正 如 我 们 所 知 ， 楼 生 网 络 接受 成 对 
的 数据 ， 因 此 我 们 定义 获取 数据 的 函数 。 我 们 将 创建 正 样本 对 (Dogs, Sub_dogs) 和 人 负 样 本 对 (Dogs， 





Cats)， 并 将 标签 分 别 赋值 为 1 和 0: 


def get_datal(): 
] 


a |[ 

labels = [] 

Dogs = glob.glob('data/audio/Dogs/*.wav') 
Sub_dogs = glob.glob('data/audio/Sub dogs/*.wav') 
Cats = glob.glob('data/audio/Cats/*.wav') 


np.random.shuffle(Sub_dogs) 
np.random.shuffle(Cats) 
for i in range(min(len(Cats),len(Sub dogs))): 
# 负 样本 对 
i (0 
pairs.append([audio2vector (Dogs[randint (0,3)]1),audio2vector (Cats[i])]) 
labels.append(0) 
# 正 样本 对 
else: 
pairs.append([audio2vector (Dogs[randint (0,3)]1),audio2vector (Sub dogs[i])]) 
labels.append(1) 
return np.array (pairs), 





np.array (labels) 


xX, 


接 下 来 划分 数据 ， 将 75% 的 数据 用 于 训练 ，25% 的 数据 用 于 测试 : 


X_test, 


get_data("/home/sudarshan/sudarshan/Experiments/oneshotaudio/data/") 


XL y_train, y_test = train test_split (x, Y, test_size=0.2) 


我 们 已 成 功 地 生成 了 数据 ， 下 面 构建 挛 生 网 络 。 我 们 定义 基 网 络 ， 用 于 特征 提取 ， 并 使 用 3 


个 密集 层 ， 中 间 有 一 个 dropout 层 : 


def builgd base network (input_shape): 
input Input (shape=input_shape) 

Flatten() (input) 

Dense(128, activation='relu') (x) 

Dropout 0h}.(XY 

Dense(128, activation='relu') (x) 

Dropout (0.1) (x) 


Xx x 


Dense(128, ac 
return Model (inpu 


tivation='relu') (x) 
Ey 





接 下 来 将 音频 对 输入 基 网 络 ， 它 将 返回 特征 : 


input_dim 
audio_a = Input (shape 
audio_b Input (shape 


XxX_train.shape[2:] 
=input_dim) 
=input_dim) 
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base_network = build base network (input_dim) 
feat_vecs_a = base_ network (audio_a) 
feat_vecs_b = base_ network (audio_b) 
feat vecs a 和 feat vecs_b 是 音频 对 的 特征 向 量 。 接 下 来 将 这 些 特征 向 量 输入 能 量 浮 


计算 它们 之 间 的 距离 ， 并 使 用 欧 氏 距离 作为 能 量 函 数 : 


def euclidean distance(vects): 
XxX, y = vects 
return K.sqrt (K.sum(K.square(x - y), axis=1, keepdims=True)) 


def eucl_ dist_ output_shape (shapes): 
shapel, shape2 = Shapes 
return (shapel[0], 1) 


distance = Lambda (euclidean distance, 
output_shape=eucl_dist_ output_shape) ([feat_vecs_a, feat_vecs_b]) 


接 下 来 ， 将 轮 数 设置 为 13， 并 使 用 RMS prop 进行 优化 : 


epochs = 13 
rms = RMSprop () 








model = Model (input=[audio_ a, audio _b], output=distance) 


最 后 ， 将 损失 滑 数 定义 为 contrastive loss 图 数 ， 并 编译 模型 


def contrastive_loss(y_true, y_pred): 

margin = 1 

return K.meanl(ly_true * K.squarel(ly_pred) + (1 - y_true) * 
K.square(K.maximum(margin - y_pred, 0))) 





model.compile(loss=contrastive_loss, optimizer=rms) 


现在 训练 模型 : 


audiol = X: trealnml[lsy "0 
audio2 = XxX train[:, 1] 


model.fit([audio_1, audio 2], y_train, validation split=.25, 
batch_ size=128, verbose=2, nb_epoch=epochs) 


可 以 看 到 ， 损 失 是 如 何 随 着 训练 轮 数 增加 而 减少 的 


Train on 8 samples, validate on 3 samples 
Epoch 1/13 

-0s - loss: 23594.8965 - val_loss: 1598.8439 
Epoch 2/13 

-QB SS “623609570 = Val LoSs: BEG.7302 
Epoch 3/13 

=- "OB. = LOSS: 8196726230 = Val LOSS "970.0378 
Epoch 4/13 

- 0s - loss: 20030.3711 - val_loss: 358.9078 
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- 0s - loss: 11196.0547 - val_loss: 


= OB TOSS: .3832898 


-0s - loss: 2037.2965 


- 0s - loss: 1434.4321 





= O08 二 SS 2553,;0562 


-0s - loss: 1046.6870 


val_loss: 


val_loss: 


val_loss: 


val_loss: 


val_loss: 


-0s - loss: 569.4632 - val_loss: 


08 ~ OSS8: /595975013 = Val loss: 





-0s - loss: 819.8594 - val_loss: 


2.4 小 结 


33.9;;999T 


381: 


303 : 


9 


25 


Js 


9774 


6652 


1388 


1207 


这 流 


183..8586 


162.3362 


12.0,3:07 





在 本 章 , 我 们 学 习 了 什么 是 挛 生 网 络 , 以 及 如 何 使 用 计生 网 络 建立 人 脸 识 别 模型 和 音频 识别 
模型 ; 研究 了 李 生 网 络 的 架构 ， 它 基本 上 由 两 个 具有 相同 权重 和 架构 的 神经 网 络 组 成 ,这 些 网 络 
的 输出 可 以 插入 某 个 能 量 函 数 中 以 计算 相似 性 。 








在 下 一 章 , 我 们 将 学 习 原 型 网 络 及 其 变 体 ， 如 高 
用 原型 网 络 进行 omniglot 字符 集 








2.5 思考 题 


(1) 什么 是 挛 生 网 络 ? 
(2) 什么 是 对 比 损失 函数 ? 
(3) 什么 是 能 量 函 数 ? 








分 类 。 





(4) 挛 生 网 络 理想 的 数据 格式 是 怎样 的 ? 


(5) 挛 生 网 络 有 哪些 应 用 ? 


2.6 延伸 阅读 
































斯 原型 网 络 和 半 原 型 网 络 , 还 将 学 习 如 何 使 





口 用 于 目标 跟踪 的 挛 生 网 络 : 参见 Luca Bertinetto 、Jack Valmadre 、Joio F. Henriques 等 人 的 
文章 Fully-Convolutional Siamese Networks for Object Trackingo 
口 用 于 图 像 识 别 的 挛 生 网 络 : 参见 Gregory Koch、Richard Zemel 和 Ruslan Salakhutdinov 的 


文章 Siamese Neural Networks for One-shot Image Recognition, 


原型 网 络 及 其 变 体 














在 上 一 章 , 我 们 学 习 了 什么 是 挛 生 网 络 , 如 何 使 用 它们 来 执行 少 样本 学 习 任务 ,以 及 如 何 使 | 
用 它们 进行 人 脸 识别 和 音频 识别 。 在 这 一 章 , 我 们 将 学 习 另 一 个 有 趣 的 少 样本 学 习 算 法 一 一 原型 
网 络 。 它 对 训练 集中 不 存在 的 类 别 也 具有 泛 化 能 力 。 我 们 将 理解 什么 是 原型 网 络 ， 如 何 使 用 原型 
网 络 在 omniglot 数据 集中 执行 一 个 分 类 任务 ,以 及 不 同 的 原型 网 络 变 体 , 如 高 斯 原型 网 络 和 半 原 
型 网 络 。 


本 章 内 容 包括 : 


口 原型 网 络 ; 

口 原型 网 络 算法 ; 

口 使 用 原型 网 络 进行 分 类 ; 
口 高 斯 原型 网 络 ; 

口 高 斯 原型 网 络 算法 ; 

口 半 原 型 网 络 。 





























3.1 原型 网 络 


原型 网 络 是 另 一 种 简单 、 高 效 的 少 样本 学 习 算 法 。 与 挛 生 网 络 一 样 ， 原 型 网 络 也 试图 学 习 度 
量 空间 来 进行 分 类 。 原 型 网 络 的 基本 思想 是 创建 每 个 类 的 原型 表示 , 并 根据 类 原型 与 查询 点 之 间 
的 距离 对 查询 点 ( 新 点 ) 进行 分 类 。 


假设 我 们 有 一 个 由 狮子 、 大 象 和 狗 的 图 像 组 成 的 支撑 集 ， 如 图 3-1 所 示 。 
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标签 


(»,) 





狮子 





狮子 


大 象 


大 象 


狗 





狗 

















因此 , 我 们 有 3 个 类 : {狮子 ,大 象 , 狗 }。 现在 需要 为 这 3 个 类 中 的 每 个 类 创建 一 个 原型 表示 。 
如 何 构 建 这 3 个 类 的 原型 呢 ?” 首 先 ,我 们 将 使 用 租 入 函数 学 习 每 个 数据 点 的 朋 入 ( 如 图 3-2 所 示 )。 
芷 入 隐 数 0 可 以 是 任何 能 够 用 来 提取 特征 的 函数 。 由 于 输入 是 图 像 ， 因此 可 以 使 用 卷 积 网 络 作 
为 租 入 函数 ， 它 将 从 输入 图 像 中 提取 特征 。 
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hl%) (嵌入 ) 
0.3 0.7 0.8 


0.5 Q;1 0.01 


0.7 0.3 0.1 


0.8 0.5 0.3 

















0.3 0.8 
0.6 0.7 
0.8 

0.5 
0 
0.8 0.6 
0.9 0.8 
0.9 5 0.7 























图 3-2 


一 旦 我 们 学 习 了 每 个 数据 点 的 和 朋 入 , 就 可 以 对 每 个 类 中 数据 点 的 府 入 取 平 均 数 , 并 形成 类 原 
型 ， 如 图 3-3 所 示 。 因 此 ， 类 原型 基本 上 是 类 中 数据 点 的 平均 藤 入 。 
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图 像 标签 ]Co) (嵌入 ) 
(Gy) O) 一 
0.3 0.7 
狮子 
0.5 0.1 
| 07 0.3 
狮子 
0.8 0.5 
| 03 08 | 
大 象 平均 pe 2 
| 0.6 2 07 | 0.55 2: 0.8 
| 08 | | 06 0.6 | 
0.5 大 象 的 类 原型 
| ol ~ | 
狗 平均 = 
| 08 05 | 用 08 
| 09 08 | 0.55 0.6 | 
狗 
09 a 07 狗 的 类 原型 
图 3-3 





同样 ， 当 输入 一 个 新 的 数据 点 ， 即 一 个 查询 点 ( 我 们 将 预测 它 的 标签 ) 时 ,我 们 将 使 用 与 创 
府 类 原型 相同 的 藤 入 函数 ， 来 为 这 个 新 数据 点 生成 甬 入 。 也 就 是 说 , 我 们 使 用 卷 积 网 络 为 查询 点 
生成 钥 入 ( 如 图 3-4 所 示 )。 








0.3 
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一 旦 有 了 查询 点 的 舰 入, 就 可 以 比较 类 原型 和 查询 点 能 人 之 间 的 距离 , 从 而 确定 查询 点 属于 
哪个 类 。 可 以 使 用 欧 氏 距离 来 度量 类 原型 与 查询 点 能 和 之 间 的 距离 ， 如 图 3-5 所 示 。 
































(计算 距离 ) 
0.5 0.7 0.45 
0.65 0.3 0.25 
狮子 的 类 原型 
0.55 喜 0.8 0.9 
0.6 RE 0.6 0.5 和 0.3 
大 象 的 类 原型 查询 点 的 对 入 
0.5 0.8 
0.85 0.6 
狗 的 类 原型 
图 3-5 





在 找到 类 原型 和 查询 点 符 人 之 间 的 距离 之 后 ， 我 们 对 这 个 距离 应 用 softmax 并 得 到 概率 。 因 
为 我 们 有 3 个 类 一 一 狮子 、 大 象 和 狗 ， 所 以 会 得 到 3 个 概率 。 概 率 最 大 的 类 就 是 查询 点 的 类 。 


因为 我 们 希望 网 络 只 从 少量 数据 点 学 习 ， 也 就 是 说 , 希望 执行 少 样本 学 习 ， 所 以 用 同样 的 方 
法 训练 网 络 。 因此, 我 们 使 用 阶段 式 训练 一 一 对 于 每 个 阶段 ,随机 抽取 数据 集中 每 个 类 的 几 个 数 
据点 作为 样本 , 称 之 为 支撑 集 ， 并 且 只 使 用 支撑 集 而 不 是 整个 数据 集 来 训练 网 络 。 类似 地 ,我 们 
从 数据 集中 随机 抽取 一 个 点 作为 查询 点 , 并 尝试 预测 它 的 类 。 因 此 , 通过 这 种 方式 ,我 们 的 网 络 
将 学 会 如 何 从 一 组 较 少 的 数据 点 中 学 习 。 


原型 网 络 的 总 体 流程 如 图 3-6 所 示 。 如 你 所 见 ， 首 先 ， 我 们 将 为 支撑 集中 的 所 有 数据 点 生成 
能 入 ,并 通过 类 中 数据 点 的 平均 能 人 来 构建 类 原型 ， 还 为 查询 点 生成 戏 入 。 然 后 ,计算 类 原型 与 
查询 点 移入 之 间 的 距离 ， 用 欧 氏 距离 作为 距离 度量 。 之 后 , 对 这 个 距离 应 用 softmax 并 得 到 概率 。 
如 图 3-6 所 示 ， 因 为 查询 点 是 狮子 ， 所 以 狮子 的 概率 很 高 ， 为 0.9。 




































































查询 点 (X) 





O 
类 原型 (cj 查询 点 的 颈 入 ( 冤 ) 








距离 = 欧 氏 距离 (类 原型 ,查询 点 的 租 入 ) 


Softmax( 距 离 ) 
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原型 网 络 不 仅 用 于 单 样本 / 少 样本 学 习 ， 而 且 还 用 于 零 样本 学 习 。 考 虑 这 种 情况 : 每 个 类 没 
有 数据 点 ,但 元 信息 包含 每 个 类 的 高 级 描述 。 因 此 , 在 这 些 情况 下 ,我 们 从 每 个 类 的 元 信息 中 学 
习 能 入 ， 以 形成 类 原型 ， 然 后 使 用 类 原型 执行 分 类 。 

















3.1.1 算法 
原型 网 络 的 算法 如 下 。 


(1) 假设 有 个 数据 集 D= fa (02 力 ) (0o0 芒 六， 其 中 zx 是 特征 ，y 是 类 标签 。 

(2) 在 阶段 性 训练 中 ， 从 数据 集 忆 的 各 类 别 中 分 别 随 机 抽样 二 个 数据 点 ， 以 组 成 支撑 集 $ 。 

(3) 同样 ， 选 择 n 个 数据 点 组 成 查询 集 0 。 

(4) 使 用 能 入 函数 /0 学 习 支 撑 集 中 数据 点 的 徐 入 。 蝶 入 函数 可 以 是 任何 特征 提取 器 ， 例 如 
用 于 图 像 的 卷 积 网 络 与 用 于 文本 的 LSTM 网 络 。 

(5) 一 旦 有 了 每 个 数据 点 的 嵌入 ， 就 可 以 通过 求 每 个 类 中 数据 点 的 平均 襄 入 ， 计 算出 每 个 类 
的 原型 : 




















s § 1 
类 原型 = 二 > /0%) 
(Ki)es 





(6) 同样 ， 学 习 查 询 集 的 舰 入 。 
(7) 计算 查询 集 税 入 与 类 原型 之 间 的 欧 氏 距离 。 
(8) 通过 对 4 使 用 softmax， 预 测 查 询 集 属于 某 个 类 别 的 概率 py(y =k|x) : 

















exp(~d (f(x),0)) 
2 exp(—d(fy(%),c)) 


(9) 计算 负 对 数 概率 损失 函数 .7(8) = -logpy(y =k|x) ， 并 使 用 随机 梯度 下 降 法 最 小 化 损失 。 





py(y = 大 |2) = 


3.1.2 ”使 用 原型 网 络 执行 分 类 


本 节 将 介绍 如 何 使 用 原型 网 络 执行 分 类 任务 。 我 们 使 用 omniglot 数据 集 来 执行 分 类 。 这 个 数 
据 集 包括 来 自 50 种 字母 表 的 1623 个 手写 字符 ,每 个 字符 有 20 个 不 同 的 例子 ,由 不 同 的 人 书写 。 
因为 我 们 想 让 网 络 从 数据 中 学 习 ， 所 以 用 同样 的 方法 训练 它 。 从 每 个 类 中 抽取 5 个 示例 ,并 将 其 
用 作 支 撑 集 。 我 们 使 用 由 4 个 卷 积 块 组 成 的 序列 作为 编码 器 , 学 习 支 撑 集 的 藤 入 , 并 构建 类 原型 。 
类 似 地 , 我 们 从 每 个 类 中 抽取 5 个 示例 作为 查询 集 ,， 学 习 查 询 集 戏 入 ,并 通过 比较 查询 集 戏 入 和 
类 原型 之 间 的 欧 氏 距 离 来 预测 查询 集 的 类 。 下 面 逐 步 进 行 解 析 。 


你 也 可 以 在 GitHub 网 站 搜索 Hands-On-Meta-Learning-With-Python， 在 带 有 注释 的 Jupyter 
Notebook 中 查看 相应 代码 。 
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首先 ， 按 如 下 代码 导入 所 有 需要 的 库 。 


import os 

import glob 

from PIL import Image 
import numpy as np 
import tensorflow as tf 





现在 要 看 看 数据 中 有 什么 。 我 们 知道 , 我 们 有 来 自 不 同 字 母 表 的 不 同 字符 ,其 中 每 个 字 
20 种 变 体 ， 由 20 个 不 同 的 人 书写 。 让 我 们 把 其 中 的 一 些 字母 画 出 来 ， 并 进行 检查 。 


日 语 中 的 字符 〈 见 图 3-7 ): 


Image.open('data/images/Japanese_(katakana) /character13/0608_01.png') 








由 不 同 的 人 书写 的 同一 字符 ( 见 图 3-8 ): 


Image.open('data/images/Japanese_(katakana) /character13/0608_13.png') 





梵文 中 的 字符 ( 见 图 3-9 与 图 3-10 ); 


Image.open('data/images/Sanskrit/character13/0863_09.png') 





图 3-9 


Image.open('data/images/Sanskrit/character13/0863_13.png') 


图 3-10 
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如 何 把 这 些 图 像 转换 成 一 个 数组 呢 ? 可 以 使 用 np .array 将 这 些 图 像 转换 为 一 个 数组 ,并 将 
其 大 小 变形 为 28x28 : 











image_name = 'data/images/Sanskrit/character13/0863_13.png' 
alphabet, character, rotation = 'Sanskrit/character1l3/rot000'.split('/') 
rotation = float (rotation[3:]) 
输出 如 下 : 
aav Ch Ley Ts. Thi 3 ey. Try. Td Tele Tb Ui ee de “ei, ~ eit li. i “te eli 
i ip it oy inl org Lo tl om eo end al ges. Sle, /De Tle nl. sy J leony 
De es Be ek et ee De Ee ee ee Le ee ee 
(Ol ES | es Se a et Ee Me ee 
PR po RA | Ee es NE 
ed Nn Mt to Nt es ed a pe Ee ee Ch Ch ee 
，1., 1.]],dtype=float32) 
在 知道 数据 集中 有 什么 之 后 ， 我 们 载 人 数据 集 : 
root_dir = 'data/' 


更 多 详细 信息 请 参考 /data/omniglot/split/train.txt 文件 (包含 语言 名 称 、 旋 转 信息 与 字符 数量 ) 
和 /data/omniglot/data/ 文 件 夹 ( 包含 图 像 ): 


traln split Path = We Patl Jol(LOGOC ALr, "SLItS;y, "train tt 


with open(train _ split path, 'r') as train split: 
train classes = [line.rstrip() for line in train split.readlines()] 


找到 类 的 数量 如 下 : 
# 类 的 数量 


no_of classes = len(train _ classes) 


按 如 下 代码 ， 将 样本 量 设 为 20， 因 为 数据 集中 的 每 个 类 都 有 20 个 样本 。 同 时 ， 将 图 像 的 宽 
高 设 为 28 x 28。 


# 样 本 数量 


num_examples = 20 





# 图 像 宽度 
img_width = 28 


# 图 像 高 度 


mg_height = 
channels = 1 


接 下 来 初始 化 训练 数据 集 ， 其 形状 为 类 的 数量 、 样 本 的 数量 ， 以 及 图 像 的 高 度 和 宽度 : 


train dataset = np.zeros( [no _ of classes, num examples, img_height, 
img_width], dtype=np.float32) 


现在 ， 读 取 所 有 的 图 像 ， 将 它们 转换 成 一 个 NumPy 数组 ， 并 将 其 连同 标签 和 值 一 起 存储 在 


28 


不 放 
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train dataset 数组 中 ， 即 train dataset = [label, values]: 


for label, name in enumerate(train classes): 
alphabet, character, rotation = name.split('/') 
otatlion. es £106at (rotatiomL3s]y 
img_dir = os.path.join(root_dir, 'data', alphabet, character) 
img_files = sorted(glob.glob(os.path.join(img_dir, '*.png'))) 
for index, img_file in enumerate(img_ files) : 
values = 1. - 
np.array (Image.open (img_file) .rotate(rotation) .resize( (img_width, 
img_height)), np.float32, copy=False) 
train_ dataset[label, index] = 


训练 数据 的 形状 如 下 : 


train_ dataset.shape 


values 


(4112, 20, 28, 28) 


在 加 载 训 练 数据 之 后 , 需要 为 它们 创建 授 入 。 因 为 输入 值 是 图 像 ， 所 以 使 用 卷 积 运算 生成 咎 
人。 因此， ee 64 个 过 小 器 的 卷 积 块 , 并 使 用 批量 标准 化 (batch normalization ) 和 ReLU 
为 激活 因数 。 然 后 ， 执 行 最 大 池 化 操作 : 














def convolution block(inputs, out_channels, name='conv'): 

conv = tf.layers.conv2d(inputs, out_channels, kernel_ size=3, 
padding='SAME') 

conv = tf.contrib.layers.batch norm(conv, updates_collections=None, 
decay=0.99, scale=True, center=True) 

conv = tf.nn.relu (convyv) 

conv = tf.contrib.layers.max_pool2d(conv, 2) 


return conv 


现在 ， 定 义 骨 入 函数 ， 它 为 我 们 提供 包含 4 个 卷 积 块 的 租 入 : 


def get_embeddings (support_set, h dim, z_dim, reuse=False): 








net = convolution block(support_set, h_dim) 
net = convolution block(net, h_dim) 
net = convolution block(net, h_dim) 
net = convolution block(net, z_dim) 
net = tf.contrib.layers.flatten (net) 


return net 


抽取 一 些 数据 点 作为 支撑 集 ， 并 阶段 性 地 使 用 支撑 集训 练 网 络 。 


现在 ， 定 义 一 些 重要 的 变量 一 一 考虑 一 个 有 50 个 类 别 、5 个 样本 的 学 习 场 景 : 
# 类 的 数量 


num way = 50 


0 记 住 ， 不 使 用 整个 数据 集 进行 训练 。 因 为 我 们 使 用 单 样本 学 习 ， 所 以 从 每 个 类 中 
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# 支 撑 集 中 每 个 类 的 样本 数量 


num_shot = 5 


# 查 询 集 中 查询 点 的 数量 
num_ query = 5 


# 样 本 数量 


num_examples = 20 


h dim = 64 
z_dim = 64 


接着 ,为 支撑 集 和 查询 集 初始 化 占 位 符 : 2 


support_set = tf.placeholder (tf.float32, [None, None, img_height, 
img_width, channels]) 

query_set = tf.placeholder (tf.float32, [None, None, img_ height, img_widgdth, 
channels]) 


然后 , 将 支撑 集 和 查询 集 的 形状 分 别 存储 在 support_set_shape 与 auery_set_shape 中 。 


support_set_shape = tf.shape(support_set) 
query_set_shape = tf.shape (query_set) 


我 们 得 到 类 的 数量 、 支 撑 集 中 数据 点 的 数量 以 及 ( 用 于 初始 化 支撑 集 和 查询 集 的 ) 查询 集中 
数据 点 的 数量 : 


num classes, num_ support_ points = support_set_shape[0], 
support_set_shapel[1] 
num query_points = query_set_shapel[1] 


接 下 来 ， 为 标签 定义 占 位 符 : 


y = tf.placeholder (tf.int64, [None, Nonel]) 




















? ttt 
Uy 











# 将 标签 转换 为 独 热 编 码 


y_one_hot = tf.one hot(y, depth=num classes) 


然后 使 用 虞 入 函数 ， 为 支撑 集 生成 钥 入 : 


support_set_embeddings = get_embeddings (tf.reshape(support_set, 
[num_classes * num support _ points, img_ height, img_width, channels]), 
h_dim, z_dim) 


计算 每 个 类 的 原型 ， 它 是 类 的 支撑 集 戏 入 的 均值 向 量 : 


embedding dimension = tf.shape(support_set_empbeddings) [-1] 




















class_prototype = tf.reduce mean(tf.reshape(support_set_embeddings, 
[num_classes, num_ support_points, embedding dimension]), axis=1) 


接 下 来 ， 使 用 相同 的 做 入 函数 来 获得 查询 集 的 符 入 : 
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query_set_embeddings = get_embeddings (tf.reshape(gquery_set, [num classes * 
num query_points, img_ height, img width, channels]), h dim, z_dim, 
reuse=True) 


在 获得 类 原型 和 查询 集 认 人 后 , 我 们 定义 一 个 距离 函数 , 它 给 出 了 类 原型 和 查询 集 租 入 之 间 
的 距离 : 


def euclidean distance(a, b): 











N, D = tf.shape(a) [0], tf.shape(a){[1] 
M = tf.shape(b) [0] 
a 
b 


= tf.tile(tf.expangd dims(a, axis=1), (1, M, 1)) 


) 
= tf.tile(tf.expangd _ dims (b, axis=0), (N, 1, 1)) 
return tf.reduce mean(tf.square(a - b), axis=2) 


计算 类 原型 和 查询 集 陪 入 之 间 的 距离 : 


distance = euclidean distance(class_prototype,dquery_set_embeddings) 


接 下 来 ,将 距离 输入 softmax 函数 ， 得 到 每 个 类 的 概率 : 


predicted probability = tf.reshape (tf.nn.log_softmax(-distance), 
[num_classes, num query_ points, -1]) 


然后 ， 计 算 损失 : 


loss = -tf.reduce mean(tf.reshape(tf.reduce sum(tf.multiply(y_one hot, 
predicted probability), axis=-1), [-1])) 


准确 率 计算 方式 如 下 : 


accuracy = 
tf.reduce mean(tf.to_ float (tf.equal (tf.argmax (predicted probability, 
axis=-1), y))) 


然后 ， 使 用 Adam 优化 器 来 最 小 化 损失 : 


train = tf.train.AdamOptimizer() .minimize(loss) 


现在 ， 局 动 TensorFlow 会 话 并 训练 模型 : 


sess = tf.InteractiveSession() 
init = tf.global variables_ initializer() 
sess.run(init) 


定义 轮 数 与 阶段 数 : 


num_epochs = 20 
num_ episodes = 100 


接 下 来 开始 阶段 性 训练 也 就 是 说 ,对 于 每 一 个 阶段 ,我们 抽样 数据 点 ,构建 
集 ， 并 训练 模型 
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for epoch in range (num epochs): 
for episode in range (num episodes): 

# 选 择 60 个 类 

episodic classes = np.random.permutation(no_of_ classes) [:num way] 

support = np.zeros([num way, num_ shot, img_ height, img_width], 
dtype=np.float32) 

query = np.zZeros([num way, num query, img_height, img_width], 
dtype=np.float32) 

for index, class_ in enumerate(episodic classes): 

selected = np.random.permutation (num examples) [:num shot + 

num_query] 


support[index] = train dataset[class_, selected[:num shot]] 
# 每 个 类 5 个 查询 点 
query[index] = train dataset[class_, selected[num shot:]] 


support = np.expand_ dims (support, axis=-1) 
query = np.expangd dims (query, axis=-1) 


labels = np.tile(np.arange (num way)[:, np.newaxis], (1, 
num_ query)) .astype (np.uint8) 

_, loss_, accuracy_ = sess.run([train, loss, accuracy], 
feed_ dict={support_set: support, query_set: query, y:labels}) 

if (episode+1) %$ 20 == 0: 


print('Epoch {} : Episode {} : Loss: {}, Accuracy: 
{}'.format (epoch+1, episode+l1l, loss_, accuracy_)) 


3.2 ”高 斯 原型 网 络 


下 面 我 们 来 看 一 个 原型 网 络 的 变 体 , 叫 作 高 斯 原型 网 络 。 我 们 刚刚 了 解 了 原型 网 络 是 如 何 学 
习 数 据点 的 戏 入 、 如 何 通过 获取 每 个 类 的 平均 能 入 来 构建 类 原型 ， 并 使 用 类 原型 执行 分 类 的 。 


在 高 斯 原型 网 络 中 , 除了 生成 数据 点 的 能 入 外 , 我 们 还 在 数据 点 周围 添加 了 一 个 以 高 斯 协 方 
差 矩 阵 为 特征 的 置信 区 域 (confidence region ) "。 置 信 区 域 有 助 于 描述 单个 数据 点 的 质量 ， 在 数 
据 有 噪声 的 、 同 质 性 低 的 情况 下 十 分 有 用 。 


因此 , 在 高 斯 原型 网 络 中 ,编码 器 的 输出 是 租 入 以 及 协 方差 矩阵 。 我 们 没有 使 用 完整 的 协 方 
差 矩 阵 ， 而 是 包括 了 协 方差 矩阵 的 一 个 半径 分 量 ( radius component ) 或 对 角 分 量 ( diagonal 
component ) 以 及 山 入 。 
































































































































口 半径 分 量 : 如 果 使 用 协 方差 矩阵 的 半径 分 量 , 那么 协 方差 矩阵 的 维 数 就 是 1， 因 为 半径 只 
是 一 个 数字 。 

口 对 角 分 量 : 如 果 使 用 协 方差 矩阵 的 对 角 分 量 ， 那 么 协 方差 矩阵 的 维 数 会 与 府 入 失 阵 维 数 
相同 。 


同样 ,我 们 用 协 方 差 矩 阵 的 逆 和 矩阵 ， 而 不 直接 使 用 协 方差 矩阵 。 可 以 使 用 以 下 任何 一 种 方法 
将 原始 协 方差 矩阵 转换 为 道 协 方差 矩阵 。 设 5S,, 为 协 方差 矩阵 ，$ 为 道 协 方差 矩阵 : 














Q@ 置信 区 域 是 confidence region， 多 维 ; 置信 区 间 是 confidence interval， 一 维 。 一 一 译 者 注 
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DD $=1+softplus(S..) 


TaW 


DD S$S=1l+sigmoid(S.) 


TaVW 


D 口 =1+4xsigmoid(S ) 


raw 


口 S$ =offset+scalexsoftplus(S 


raw 











/div) , 其 中 offset 与 scale 是 可 训练 参数 ( trainable parameter ) 


因此 , 编码 器 除了 为 输入 生成 谱 入 外 , 还 返回 协 方差 矩阵 。 我 们 使 用 协 方差 矩阵 
GP 的 对 角 分 量 或 半径 分 量 ， 还 使 用 遂 协 方差 矩阵 (inverse covariance matrix )， 而 不 

















直接 使 用 协 方差 矩阵 。 
那么 协 方差 矩阵 和 衣 和 信 有 什么 用 呢 ? 如 前 所 述 , 它 拓宽 了 数据 点 周围 的 置信 区 域 , 这 在 有 噪 
声 的 数据 中 非常 有 用 。 请 看 图 3-11。 假 设 有 两 个 类 ，A 和 了 B。 黑 点 表示 数据 点 的 误 入 ， 黑 点 周围 





的 圆 闫 表示 协 方差 矩阵 ,大 的 虚线 圆 表 示 一 个 类 的 总 体 协 方差 矩阵 ， 中 间 的 星 号 表示 类 原型 。 正 
如 你 所 看 到 的 ， 骨 入 周围 的 协 方差 矩阵 给 了 我 们 一 个 围绕 数据 点 和 类 原型 的 置信 区 域 。 

















图 3-11 


让 我们 通过 阅读 代码 来 更 好 地 理解 这 一 点 。 假 设 有 一 个 图 像 x, 我 们 想 生 成 这 个 图 像 的 怠 入 。 
我 们 用 sigma 表示 协 方差 矩阵 。 首 先 ， 选 择 要 使 用 协 方差 矩阵 的 哪个 分 量 ， 也 就 是 说 ， 要 使 用 对 
角 分 量 还 是 半径 分 量 。 如 果 用 半径 分 量 ， 那 么 协 方差 矩阵 的 维 数 就 是 1; 如 果 选 择 对 角 分 量 ， 则 
协 方差 矩阵 的 大 小 会 与 脱 入 维 数 相 同 : 


if component =='radius': 

















covariance matrix dim = 1 
else: 
Covariance matrix dim = embedding_dim 
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下 面 定义 编码 器 。 因 为 输入 是 一 个 图 像 ， 所 以 使 用 卷 积 块 作为 编码 需 。 我 们 定义 过 滤器 的 大 
小 、 数 量 和 池 化 层 (pooling layer ) 大 小 : 





filters = [3,3,3,3] 
num_ filters = [64,64,64,embedding dim +covariance matrix_diml] 
人 GOLTS 2 272 
初始 化 图 像 嵌 入 xX: 
previous_channels = 1 
embeddings = X 

weight = [] 

blass Ss. 

conv_relu = [] 

Sy "| 

conv_pooled = [] 


然后 ， 执 行 卷 积 操作 ， 并 获取 扔 入 : 
for i in range(len(filters)): 


filter_size = filters[il 

num_ filter = mum_filters[il 

pool = pools[i] 

weight.append (tf.get variable("weights_"+str(i), shape=[filter_ size， 
filter_size, previous_channels, num filter]) 

bias.append (tf.get_variable("bias_"+str(i), shape=[num_ filter])) 

conv.append (tf.nn.conv2d (embeddings, weight[i], strides=[1,1,1,1], 
padding='SAME') + bias[i] 

conv_relu.append (tf.nn.relu(conv[i])) 

conv_pooled.append(tf.nn.max_pool (conv_relul[i], ksize = 
[1,pool,pool,1], strides=[1,pool,pool,1], padding = "VALID")) 


previous_channels = num _ filter 
embeddings = conv_ pooledq [i] 


将 最 后 一 个 卷 积 层 的 输出 作为 符 入 ， 对 结果 进行 变形 ， 得 到 般 入 和 协 方 差 矩 阵 : 
X_encoded = tf.reshape (embeddings,[-1,embedding dim + covariance matrix_ dim]) 


下 面 拆 分 戏 入 和 原始 协 方差 矩阵 〈 如 下 代码 所 示 )， 因 为 我 们 需要 将 原始 协 方差 矩阵 转换 为 
逆 协 方差 矩阵 。 


embeddings, raw_Covariance matrix = tf.split (XxX_encoded, [embedding_ dim, 
covariance matrix dim], 1) 


接 下 来 ,使 用 任意 讨论 过 的 方法 计算 协 方差 矩阵 的 逆 : 


if inverse transform type == "softplus": 
offset = 1.0 
scale = 1.0 
inv_covariance matrix = offset + scale * 
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tf.nn.softplus (raw_covariance matrix) 


elif inverse transform type == "sigmoid": 
offset = 1.0 
scale = 1.0 
inv_covariance matrix = offset + scale * 
tf.sigmoid(raw_covariance matrix) 


elif inverse transform type == "sigmoiqd 2": 
offset = 1.0 
scale = 4.0 
inv_covariance matrix = offset + scale * 
tf.sigmoid(raw_covariance matrix) 


elif inverse transform type == "other": 


inNit; = tf constant(l. 0) 

Scale = tf.get_ variable("scale", initializer=init) 
div = tf.get_variable("div", initializer=init) 
offset = tf.get_ variable("offset", initializer=init) 


inv_covariance matrix = offset + scale * 
tf.nn.softplus (raw_covariance matrix/div) 


目前 为 止 ， 我们 已 经 计算 了 协 方差 矩阵 和 一 个 输入 的 舱 入 。 接 下 来 怎么 做 ?如何 计算 类 原 
型 ? 类 原型 p 计算 如 下 : 


De 
Sr 


i 


其 中 ，s; 是 逆 协 方差 算 阵 的 对 角 分 量 ，x? 是 脱 入 ， 上 标 c 代 表 类 








在 计算 了 每 个 类 的 原型 后 , 我 们 学 习 查询 点 的 嵌入 。 设 :为 查询 点 的 嵌入, 然后 计算 查询 点 
租 人 到 类 原型 之 间 的 距离 : 

















距离 = Yr-p)'s -六 ) 
最 后 ， 预 测 查 询 集 了》 的 类 ， 它 与 类 原型 的 距离 最 小 : 
了 =argmin。( 距离 ) 





算法 
现在 ,我们 逐步 来 理解 高 斯 原型 网 络 。 
(1) 假设 有 一 个 数据 集 DD = {(X1, 71), (7)… (0 ， 其 中 x 是 特征 ， 了 是 类 标签 。 假设 有 
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一 个 二 元 标签 ,这 意味 着 只 有 两 个 类 ,0 和 1。 我 们 将 从 数据 集 DD 的 各 类 别 中 不 放 回 地 随机 抽样 
数据 点 ， 以 组 成 支撑 集 $ 。 

(2) 同样 ， 随 机 抽样 数据 点 组 成 查询 集 O 。 

(3) 将 支撑 集 传人 和 藤 入 函数 f0 。 肯 入 函数 将 生成 支撑 集 的 府 入 以 及 协 方差 矩阵 。 

(4) 计算 协 方差 矩阵 的 逆 。 

(5) 计算 支撑 集中 每 个 类 的 原型 ， 如 下 : 

















0 
型 _ 和 oi 
原型 (p.) 本 
其 中 ，s%* 是 首 协 方差 矩阵 的 对 角 分 量 ， 闻 是 支撑 集 的 嵌入 ， 上 标 c 代 表 类 。 
(6) 在 计算 了 支撑 集中 每 个 类 的 原型 后 ， 我 们 学 习 查 询 集 的 能 入 CO 。 设 x' 是 查询 点 的 笛 入 。 
(7) 计算 查询 点 能 和 与 类 原型 之 间 的 距离 ， 如 下 : 























距离 = -p) 3 .Xp) 
(8) 计算 了 类 原型 与 查询 集 符 和 之 间 的 距离 后 ， 预 测 查询 集 》 的 类 ， 它 与 类 原型 


了 =argmin。( 距离 ) 














N= 


的 距离 最 小 : 














3.3 半 原 型 网 络 

本 节 我 们 学 习 另 一 种 有 趣 的 原型 网 络 变 体 一 一 半 原 型 网 络 。 它 处 理 未 标记 的 样本 。 我 们 知道 ， 
在 原型 网 络 中 , 通过 每 个 类 的 平均 鹃 入 来 计算 每 个 类 的 原型 ,然后 通过 计算 查询 点 到 类 原型 的 距 
离 来 预测 查询 集 的 类 。 

如 果 数 据 集 包含 一 些 未 标记 的 数据 点 呢 ? 该 如 何 计算 这 些 未 标记 数据 点 的 类 原型 ? 

假设 有 支撑 集 S= (X15 81), Xs 3), Xi, yi) » 以 及 查询 集 0 二 (xX1, 87), (X23, 7, ),**, Xi, 4) » 其 
中 Xx 是 特征 ， 了 是 标签 。 除 了 这 些 » 还 有 一 个 未 标记 集合 R 一 {1 “XC} O 

可 以 用 这 个 未 标记 集合 做 些 什么 呢 ? 

首先 ， 我 们 将 使 用 支撑 集中 的 所 有 样本 来 计算 类 原型 。 接 下 来 ， 使 用 soft k-means 并 为 RR 中 
未 标记 的 样本 指派 类 别 , 即 通 过 计算 类 原型 和 未 标记 的 样本 之 间 的 欧 氏 距离 , 来 为 R 中 未 标记 的 
样本 指派 类 别 。 

然而 ， 这 种 方法 的 问题 是 ， 由 于 我 们 使 用 的 是 soft k-means， 所 有 未 标记 的 样本 可 能 属于 任 


何 类 原型 。 比 如 说 ， 支 撑 集 中 有 3 个 类 { 狮 子 , 大 象 , 狗 } ， 如 果 未 标记 的 样本 有 一 个 数据 点 代表 一 
只 猫 ， 那 么 把 它 放 在 支撑 集 的 任何 一 类 中 都 是 无 意义 的 。 因 此 ， 为 未 标记 的 样本 指派 一 个 新 类 ， 
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称 为 干扰 类 ( distractor class )， 而 不 是 将 数据 点 添加 到 现 有 类 。 


但 是 ， 即 使 使 用 这 种 方法 ， 我 们 也 会 遇 到 另 一 个 问题 ， 因 为 干扰 类 本 身 具 有 高 方差 。 例 如 ， 
考虑 未 标记 集合 R ， 它 包含 完全 不 相关 的 数据 点 ， 例 如 { 猫 , 直升机 , 公交 车 , 其 他 }。 在 本 例 中 ， 
不 建议 将 所 有 未 标记 的 样本 都 保存 在 单个 名 为 干扰 类 的 类 中 , 因为 它们 已 是 受 污染 的 数据 了 , 且 
彼此 无 关 。 


因此 , 我 们 将 干扰 类 更 改 为 所 有 不 在 类 原型 的 某 个 闵 值 距离 范围 内 的 样本 。 该 如 何 计算 这 个 
国 值 呢 ?首先 , 计算 未 标记 集合 R 中 的 未 标记 样本 到 所 有 类 原型 之 间 的 归 一 化 距离 。 接 下 来 , 通 
过 将 归 一 化 距离 的 各 种 统计 量 ( 如 最 小 值 、 最 大 值 、 偏 度 和 峰 度 ) 输入 神经 网 络 , 计算 每 个 类 原 
型 的 阀 值 。 基 于 这 个 阀 值 ， 我 们 向 类 原型 添加 样本 或 忽略 未 标记 的 样本 。 





















































3.4 小结 


在 本 章 ， 我们 学 习 了 原型 网 络 ， 了 解 了 原型 网 络 如 何 使 用 垦 入 函数 计算 类 原型 ， 并 通过 比较 
类 原型 和 查询 集 胖 入 之 间 的 欧 氏 距离 来 预测 查询 集 的 类 标签 。 在 此 基础 上 , 我 们 使 用 一 个 原型 网 络 
对 omniglot 数据 集 进 行 分 类 ; 然后 学 习 了 高 斯 原型 网 络 , 它 在 使 用 符 入 的 同时 , 使 用 协 方差 矩阵 来 
计算 类 原型 ; 之 后 研究 了 用 于 处 理 半 监 督 类 的 半 原 型 网 络 。 下 一 章 将 介绍 关系 网 络 与 匹配 网 络 。 


















































3.5 思考 题 


(1) 什么 是 原型 网 络 ? 

(2) 计算 岩 入 有 什么 作用 ? 
(3) 如 何 计算 类 原型 ? 
(4) 什么 是 高 斯 原型 网 络 ? 

(5) 高 斯 原型 网 络 与 普通 原型 网 络 有 何 区 别 ? 

(6) 高 斯 原型 网 络 中 使 用 了 协 方差 矩阵 的 哪些 不 同 分 量 ? 





















































3.6 ”延伸 阅读 


口 原型 网 络 : 参见 Jake Snell、Kevin Swersky 和 Richard S. Zemel 的 文章 Prototypical Networks 
for Few-shot Learning。 

口 高 斯 原型 网 络 : 参见 Stanislav Fort 的 文章 Gaussian Prototypical Networks for Few-Shot 
Learning on Omniglot, 

口 半 原 型 网 络 : 参见 Mengye Ren、Eleni Triantafillou、Sachin Ravi 等 人 的 文章 Meta-Learning 
for Semi-Supervised Few-Shot Classification。 




















第 4 章 
使 用 TensorFlow 构建 关系 
网 络 与 匹配 网 络 








在 上 一 章 , 我 们 学 习 了 原型 网 络 ， 以 及 如 何 使 用 原型 网 络 的 变 体 ( 如 高 斯 原型 网 络 和 半 原 型 
网 络 ) 进行 单 样 本 学 习 ， 了 解 了 原型 网 络 如 何 利用 般 入 来 执行 分 类 任务 。 


在 本 章 ， 我 们 将 学 习 关 系 网 络 和 匹配 网 络 。 首先, 我 们 将 了 解 什么 是 关系 网 络 ， 以 及 在 单 样 
本 、 少 样本 和 零 样本 学 习 场 景 中 如 何 使 用 关系 网 络 ; 然后 学 习 如 何 使 用 TensorFlow 构建 关系 网 
络 ; 之 后 学 习 匹 配 网 络 以 及 它们 在 少 样本 学 习 中 的 应 用 , 以 及 用 于 匹配 网 络 中 的 不 同类 型 的 谍 和 人 
函数 ; 最 后 学 习 如 何在 Tensorflow 中 构建 匹配 网 络 。 


本 童 内 容 包括 : 


口 关系 网 络 ; 

口 单 样本 、 少 样本 与 零 样本 学 习 场 景 中 的 关系 网 络 ; 
口 使 用 TensorFlow 构建 关系 网 络 ; 

口 匹配 网 络 ; 

口 匹配 网 络 的 衣 人 函数; 

口 匹配 网 络 的 架构 ; 

口 TensorFlow 中 的 匹配 网 络 。 















































4.1 关系 网 络 


本 节 我 们 将 学 习 男 一 个 有 趣 的 单 样本 学 习 算法 一 一 关系 网 络 。 它 是 最 简单 、 最 有 效 的 单 样本 
学 习 算 法 之 一 。 我 们 将 探讨 如 何在 单 样本 、 少 样本 与 零 样本 学 习 场 景 中 使 用 关系 网 络 。 











4.1.1 单 样本 学 习 中 的 关系 网 络 
关系 网 络 由 两 个 重要 的 函数 组 成 : 嵌入 函数 ,和 关系 函数 g， 。 嵌 入 函数 用 于 从 输入 中 提取 
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特征 。 如 果 输 入 是 图 像 ， 那 么 可 以 使 用 卷 积 网 络 作为 般 入 函数 ， 它 会 提供 图 像 的 特征 向 量 / 娩 入 。 


如 果 输 入 是 文本 ,那么 可 以 使 用 LSTM 网 络 来 获得 文本 的 髋 入 。 
有 一 个 样本 。 例 如 ,假设 支撑 集 包含 3 个 类 ， 每 个 类 


























我 们 知道 ， 在 单 样 本 学 习 中 ， 每 个 类 只 
有 一 个 示例 。 如 图 4-1 所 示 ， 我 们 有 一 个 包含 3 个 类 的 支撑 集 {狮子 , 大 象 , 狗 }。 








标签 (y) 


图 像 (x,) 


狮子 























图 4-1 支撑 集 





假设 有 查询 图 像 x, ， 如 图 4-2 所 示 ， 我 们 想 预 测 这 个 查询 图 像 的 类 。 





图 4-2 ”查询 图 像 @vw) 


首先 ， 将 支撑 集中 的 每 个 图 像 x 传递 给 嵌入 函 数 f(x,) ， 以 提取 特征 。 由 于 支撑 集 有 图 像 ， 
因此 可 以 使 用 卷 积 网 络 作为 嵌入 函数 来 学 习 艇 入 。 拒 入 函数 将 给 出 支撑 集中 每 个 数据 点 的 特征 向 
量 。 同 样 ， 我 们 将 通过 把 查询 图 像 x, 传递 给 嵌入 函数 广 (x,) 来 学 习 该 查询 图 像 的 嵌入 。 
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因此 , 一 旦 有 了 支撑 集 的 特征 向 量 f,(x,) 和 查询 集 的 特征 向 量 f(x,) , 我 们 就 使 用 运算 符 Z 
将 它们 组 合 起 来 。 这 里 Z 可 以 是 任意 组 合算 子 。 我 们 使 用 拼接 ( concatenation ) 作为 运算 符 来 组 
合 支 撑 集 的 特征 向 量 和 查询 集 的 特征 向 量 ， 即 Z(f,(x), f(x))) 。 























如 图 4-3 所 示 ， 下 面 组 合 支撑 集 的 特征 向 量 /,(x,) 和 查询 集 的 特征 向 量 f(x,) ， 但 这 样 组 合 
有 什么 用 呢 ? 这 有 助 于 我 们 理解 支撑 集中 图 像 的 特征 向 量 与 查询 图 像 的 特征 向 量 之 间 的 关系 。 
在 上 述 例子 中 , 它 将 帮助 我 们 理解 狮子 、 大 象 和 狗 的 图 像 特 征 向 量 与 查询 图 像 的 特征 向 量 之 间 的 
关系 。 






































狮子 的 特征 
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大 象 的 特征 向 量 
狗 的 特征 向 量 查询 图 像 的 特征 向 量 
h(n) 万全) 


2 (x),f, x) 
图 4-3 ”特征 拼接 
但 如 何 衡量 这 种 关系 呢 ? 这 就 是 使 用 关系 函数 gj 的 原因 。 将 这 些 组 合 的 特征 向 量 传 递 给 关系 
函数 ， 关 系 函数 会 生成 0~1 的 关系 得 分 ， 表示 支撑 集中 样本 x 与 查询 集中 样本 x 之 间 的 相似 性 。 
下 面 的 等 式 展 示 了 如 何 计算 关系 网 络 中 的 关系 得 分 : 
n= gy(Z(fo(x), fo(x))) 


上 式 中 , w 表示 支 撑 集 中 每 个 类 与 查询 图 像 之 间 相 似 性 的 关系 得 分 。 因 为 在 支撑 集中 有 3 个 类 ， 
在 查询 集中 有 1 个 图 像 ， 所 以 我 们 会 有 3 个 分 数 来 表示 支撑 集中 3 个 类 与 查询 图 像 的 相似 性 。 


关系 网 络 在 单 样本 学 习 环境 中 的 整体 表示 如 图 4-4 所 示 。 
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支撑 集 
»; 
狮子 
嵌入 函数 a ”狮子 的 特征 向 量 查询 图 像 的 特征 向 量 
0.1 
1 大 象 的 特征 向 量 “ | | 查询 图 像 的 特征 向 量 8 101 
ww 关系 |0.8 
狗 的 特征 向 量 查询 图 像 的 特征 向 量 函数 ”关系 
得 分 
大 象 特征 拼接 
2Z0f,(%),1,(x))) 
狗 了 讽 ， 
$5 
查询 图 像 (x) 





图 4-4 


4.1.2 少 样 本 学 习 中 的 关系 网 络 
我 们 已 了 解 了 如 何 将 属 


[二 


于 支撑 集中 每 个 类 的 单个 图 像 与 关系 网 络 的 单 样本 学 习 场 景 中 的 查 
询 集中 的 图 像 进 行 比较 。 但 是 , 在 少 样本 的 学 习 环境 中 ,每 个 类 会 有 不 止 一 个 数据 点 。 如 何 使 用 
诅 人 函数 学 习 特 征 表示 呢 ? 

















假设 有 一 个 支撑 集 ， 其 中 每 个 类 包含 多 个 





图 像 ， 如 图 4-5 所 示 。 
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图 4-5 
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这 种 情况 下 , 我 们 将 学 习 支 撑 集 中 每 个 点 的 租 入 , 并 对 属于 每 个 类 的 所 有 数据 点 的 府 和 人 逐 元 
素 相 加 。 因 此 ， 我 们 会 得 到 每 个 类 的 能 入 ， 这 是 该 类 中 所 有 数据 点 的 藤 入 之 和 ， 如 图 4-6 所 示 。 
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图 4-6 





可 以 像 往 常 一 样 使 用 嵌入 函数 提取 查询 图 像 的 特征 向 量 。 接 下 来 , 使 用 拼接 运算 符 Z 来 结合 
支撑 集 的 特征 向 量 与 查询 集 的 特征 向 量 。 我 们 进行 拼接 ,然后 将 拼接 后 的 特征 向 量 提供 给 关系 了 
数 并 得 到 关系 得 分 ， 关 系 得 分 表示 支撑 集中 的 每 个 类 与 查询 集中 的 每 个 类 之 间 的 相似 性 。 
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关系 网 络 在 少 样本 学 习 环 境 下 的 整体 表示 如 图 4-7 所 示 。 
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图 4-7 





4.1.3 ” 零 样 本 学 习 中 的 关系 网 络 


现在 我 们 已 了 解 了 如 何在 单 样本 学 习 任 务 和 少 学 习 任 务 中 使 用 关系 网 络 。 我 们 将 看 到 如 何 
在 零 样本 学 习 场 景 中 使 用 关系 网 络 。 在 零 样本 学 习 场 景 中 ,在 每 个 类 下 都 没有 任何 数据 点 ， 但 
会 有 元 信息 。 元 信息 是 关于 每 个 类 的 属性 的 信息 ,元 信息 会 被 编码 到 语义 向 量 普 中 , 下 标 c 表示 
类 别 。 




















我 们 没有 使 用 单一 的 咀 入 函数 来 学 习 支 撑 集 和 查询 集 的 租 入 , 而 是 分 别 使 用 了 两 个 不 同 的 扔 
入 函数 方 与 f,,。 首 先 ， 我 们 将 使 用 f, 学 习 语义 向 量 六 的 能 入 ， 并 使 用 ,学 习 查 询 集 x 的 髓 
入 。 下 面 使 用 拼接 运算 符 Z 来 拼接 这 些 虞 入 : 











Zone) fo2(X))) 
然后 ， 将 结果 输入 关系 函数 ， 并 计算 关系 得 分 : 








二 gs(Z(fo(v.), ja 
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4.1.4 损失 函数 


关系 网 络 的 损失 函数 是 什么 ” 我们 将 使 用 均 方 误差 (MSE ) 作为 损失 函数 。 虽然 这 是 一 个 分 
类 问题 , 且 MSE 不 是 分 类 问题 的 标准 度量 , 但 是 关系 网 络 的 作者 认为 ， 因 为 预测 的 是 关系 得 分 ， 
所 以 可 以 把 它 当 作 回 归 问 题 。 尽 管 如 此 ， 实 际 上 ， 我 们 只 能 自动 生成 {0,1} 目标 。 


损失 函数 如 下 : 









































0,6 < -argminy, 2 2 (1 一 107 = 7,)) 


i=1 j=l 


其 中 ，9p 与 8 分 别 是 嵌入 函数 了 与 关系 函数 g 的 参数 。 


4.2 使 用 TensorFlow 构建 关系 网 络 


关系 函数 很 简单 ， 对 吧 ? 通过 在 TensorFlow 中 实现 一 个 关系 网 络 ， 我 们 将 更 好 地 理解 关系 
网 络 。 

你 也 可 以 在 GitHub 网 站 搜索 Hands-On-Meta-Learning-With-Python ， 在 带 有 注释 的 Jupyter 
Notebook 中 查看 相应 代码 。 

首先 ， 导 入 所 有 需要 的 库 : 


import tensorflow as tf 
import numpy as np 


然后 ， 随 机 生成 数据 点 。 假 设 数据 集中 有 两 个 类 ， 我 们 将 随机 为 每 个 类 生成 大 约 1000 个 数 





























classA 
ClassB 


通过 组 合 这 些 类 来 创建 数据 集 : 


data = np.vstack([classA, ClassB]) 


np.random.rand(1000,18) 
np.random.rand(1000,18) 





现在 设置 标签 。 将 classA 标记 为 1， 将 classB 标记 为 0: 
label = np.vstack([np.ones((len(classA),1)),np.zeros((len(ClassB),1))]) 
于 是 ， 数 据 集会 拥有 2000 条 记录 : 


data.shape 
(20005 .18) 


现在 为 文 撑 集 与 查询 集 定义 占 位 符 : 
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xi = tf.placeholder (tf.float32, [None，91]) 
X]j = tf.placeholder (tf.float32, [None, 91]) 
为 y 标签 定义 占 位 符 : 
y = tf.placeholder (tf.float32, [None, 1]) 





下 面 定义 舱 入 函数 , 该 函数 将 学 习 支 撑 集 和 查询 集 的 散人 。 我们 将 使 用 





I 


( feedforward network ) 作为 乱入 函数 : 


def embedding_ function (x): 
weights 


f Xi 


bia 
己 = 


embeddings = 


S 


= tf.Variable(tf.truncated normal([9,1])) 


tf.Variable(tf.truncated normal([1]) 
(tf.nn.xw_plus_b (x,weights,bias)) 


return embeddings 


计算 支撑 集 的 嵌入 : 


embedd 





计算 查询 集 的 嵌入 : 


Ef 


现在 已 计算 了 舱 入 ,得 到 了 特征 向 量 ， 下 面 将 支撑 集 和 查询 集 特征 向 


区 


tf.nn.relu(a) 


ing_function (xi) 


embedding_function (xj) 


ee 放风 


将 关系 函数 定义 为 具有 ReLU 激活 的 三 层 神经 网 络 : 


def relation function(X) : 





.truncated normal 
.truncated normal 


.truncated normal 
.truncated normal 


truncated_normal 


truncated_normal 


([ 
([ 
QL 
([ 
他 
([ 


(tf.nn.xw_plus_b (x,wl,b1)) 


tfunn .ww plus b(tal,w2,b2) 


tf.nn.xw_plus_b(z2,w3,b3) 


wl = tf.Variable(tf. 
bl = tf.Variable(tf 
w2 = tf.Variable(tf 
b2 = tf.Variable (tf. 
w3 = tf.Variable (tf 
b3 = tf.Variable(tf 
# 层 1 

pi 运 

al = tf.nn.relu(z1) 
# 层 2 

-A 

a2 = tf.nn.relu(z2) 
# 层 3 

Z3 二 

# 输 出 

y = tf.nn.sigmoid(z3) 
return y 
































1 
个 普 


现在 将 支撑 集 和 查询 集 的 特征 向 量 拼接 后 传递 给 关系 函数 ， 得 到 关系 得 分 : 


relation_scores = 


relation function(Z) 


证 
坦 


的 前 馈 网 络 


结合 起 来 : 
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我 们 将 MSE 作为 1oss_function， 即 relation scores 与 实际 y 值 之 间 的 squared 


difference: 


loss_function = tf.reduce mean(tf.squared difference(relation scores,y)) 


可 以 使 用 aaamoptimizer 来 最 小 化 损失 : 


optimizer = tf.train.AdamOptimizer(0.1) 
train = optimizer.minimize(loss_function) 


现在 ， 启 动 TensorFlow 会 话 : 


sess = tf.InteractiveSession() 
sess.run(tf.global_ variables_ initializer()) 


现在 ， 随 机 抽取 支撑 集 xi 和 查询 集 xj 的 数据 点 ， 训 练 网 络 : 


for episode in range(1000): 
_, loss_value = sess.run([train, loss_function], 
feed_ dict={xi:data[:,0:9]+np.random.randn(*np.shape (data[:,0:9]))*0.05, 
) 








xj:data[:,9:]+np.random.randn(*np.shape(data[:,9:]))*0.05, 
y:label}) 
if episode % 100 == 
print ("Episode {}: loss {:.3f} ".format (episode, loss_value)) 

输出 如 下 : 
Episode 0: loss 0.495 
Episode 100: loss 0.250 
Episode 200: loss 0.250 
Episode 300: loss 0.250 
Episode 400: loss 0.250 
Episode 500: loss 0.250 
Episode 600: loss 0.250 
Episode 700: loss 0.250 
Episode 800: loss 0.250 
Episode 900: loss 0.250 
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匹配 网 络 是 谷歌 DeepMind 团队 发 布 的 男 一 种 简单 高 效 的 单 样本 学 习 算法 。 它 其 至 可 以 为 数 
据 集中 未 观察 到 的 类 生成 标签 。 
假设 有 一 个 支撑 集 S ,包含 个 样本 (7),(%, 旋 ))…,(X4,74)。 当 给 定 查 询 点 充 (新 的 不 可 
见 示例 ) 时 ， 匹 配 网 络 通过 将 其 与 支撑 集 进 行 比较 来 预测 的 类 。 
我 们 可 以 将 其 定义 为 p($|t,5S) ， 其 中 己 为 参数 化 神经 网 络 ，》$ 为 查询 点 这 的 预测 类 ，S$ 为 支 
学 集 。 P(7| 训 8) 会 返回 这 属于 数据 集中 每 个 类 的 概率 。 然 后 ， 选 择 概 率 最 大 的 类 作为 对 的 类 ， 
但 它 究竟 是 如 何 运作 的 ? 该 如 何 计 算 这 个 概率 ? 现在 让 我 们 来 看 看 。 
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查询 点 + 的 输出 了 的 预测 方法 如 下 : 


大 
$= Dak, x)y, 
i=1 














让 我 们 解析 这 个 方程 式 。 其 中 ，x 与 yy, 分别 是 支撑 集 的 输入 和 标签 。* 是 查询 输入 ,我 们 想 要 
预测 它 的 标签 。a 是 与 x 之 间 的 注意 力 机 制 ( attention mechanism )， 但 如 何 执行 注意 力 呢 ?” 这 里 
使 用 一 个 简单 的 注意 力 机 制 , 即 计 与 x 之 间 余 弦 距 离 的 softmax 值 , 即 a(X,x,)=softmax(cos(%,x,)) 。 


我 们 不 能 直接 计算 原始 输入 与 x 之 间 的 余弦 距离 , 因此 首先 学 习 它 们 的 符 和 人 并 计算 代入 之 
间 的 余弦 距离 。 使 用 两 种 不 同 的 误 入 了 与 g ， 分 别 用 于 学 习 查 询 输 入 和 支撑 集 输入 交 的 脱 入 。 
下 面 的 章节 会 介绍 这 两 个 怠 入 函数 了 与 8 ， 及 其 怠 人 。 


因此 ， 可 以 将 注意 力 方程 改写 为 如 下 : 
a(X, x,) = softmax(cos(f (%), 2(x,))) 


可 以 将 之 前 的 方程 改写 为 如 下 : 




















ef (RH),s ) 





a(X, Xx,) = 
(X, Xx;) 4 ecosWGs(m 
j=1 


因此 ， 在 计算 了 注意 力矩 阵 a(%,x) 后 ， 用 支撑 集 标签 y, 乘 以 注意 力 和 矩阵， 但 如 何 将 支撑 集 
标签 疙 与 注意 力矩 阵 相 乘 呢 ? 首先 ， 将 支撑 集 标 签 转换 成 独 热 编 码 值 ， 然 后 与 注意 力矩 阵 相 乘 ， 
结果 ,得 到 了 属于 支撑 集中 每 个 类 的 概率 。 之 后 ， 应 用 argmax 并 选择 概率 值 最 大 的 作为 了 。 


如 果 还 不 明白 的 话 ， 请 看 图 4-8。 如 你 所 见 ， 支 撑 集 中 有 3 个 类 {狮子 , 大 象 , 狗 }。 同 时 ,我 
们 有 一 个 新 的 查询 图 像 *+ 。 首 先 , 将 支撑 集 输 入 冤 入 函数 g ,将 查询 图 像 输 入 咎 入 函数 ,学习 
它们 的 租 入 并 计算 它们 之 间 的 余弦 距离 。 其 次 ， 在 这 个 余弦 距离 上 应 用 softmax 注意 力 。 再 次 ， 
使 用 独 热 编码 的 支撑 集 标签 乘 以 注意 力 和 矩阵, 得 到 概率 。 最 后 ， 选 择 概率 最 高 的 那个 作为 了 》。 如 
图 4-8 所 示 ， 查 询 集 图 像 为 大 象 ， 在 索引 1 处 有 很 高 的 概率 ， 因 此 预测 了》 的 类 为 1 ( 大 象 )。 
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狮子 
g(x) f/f | 一 
查询 图 像 (%) 
距离 = cos(Cg(x),7CD) 
注意 力 =Softmax( 距 离 ) 
大 象 
(区 )  ( 独 热 编 双 后 的 。 [5 
i ; 
SH | i 站 
a 0. 
ol D 
狗 
p(X,s) 
图 4-8 
藤 入 函数 


我 们 已 掌握 了 使 用 两 个 吝 入 函数 j 了 与 g 分 别 学 习 * 和 x 的 嵌入 ,下 面 来 看 这 两 个 函数 是 如 何 
学 习 骨 入 的 。 


1. 支撑 集 的 嵌入 函数 〈9) 
我 们 使 用 能 入 函数 g 来 学 习 支 撑 集 的 嵌入 ,使 用 双向 LSTM 作为 膀 入 函数 g 。 
藤 入 函数 g 的 定义 如 下 : 


def g(xX): 
# 正 向 细胞 
forward_cell = rnn.BasicLSTMCell]l (32) 





# 反 向 细胞 
backward_cell = rnn.BasicLSTMCel1(32) 
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# 双 向 LSTM 

outputs, state_ forward, state_ backward = 
rnn.static bidirectional_rnn(forward cell, backward_ cell, X, 
dtype=tf.float32) 


return tf.add(tf.stack (XxX), tf.stack(outputs)) 
2. 查询 集 的 能 入 函数 ( 访 


我 们 使 用 般 入 函数 了 来 学 习 查询 点 守 的 能 入 , 使 用 LSTM 作为 编码 函数 。 除了 使 用 作为 输 
入 , 我 们 还 将 传人 支撑 集 的 租 入 ， 即 g(x), 并 传递 男 一 个 参数 K, 该 参数 定义 了 处 理 步骤 的 数量 。 
下 面 是 计算 查询 集 租 入 的 步 又 。 
首先 ， 初始化 LSTM 细胞 : 


cell = rnn.BasicLSTMCell (64) 
previous_state = cell.zero_state(batch size, tf.float32) 


然后 ， 执 行 玉 次 〈 处 理 步骤 的 数量 ) 如 下 操作 : 
for step in xrange (K): 
通过 将 + 输入 LSTM 细胞 ， 计 算 查询 集 的 嵌入 : 


output, state = cell (XHat, previous_state) 
nk ti add(output, ‘XHNaty 


现在 ， 对 支撑 集 和 宜人 ( 即 g_embedings ) 执行 softmax 注意 力 。 它 有 助 于 避免 不 必要 的 














content_based_attention = tf.nn.softmax(tf.multiply (previous_statel[1], 
g_embedding)) 

r_k = tf.reduce_ sum(tf.multiply (content_ based attention, g_embedding), 
axis=0) 


更 新 previous_state 并 重复 天 次 这 些 步 又 : 


previous_state = rnn.LSTMStateTuple(state[0], tf.add(h_k, r_k)) 


计算 £f embeddings 的 完整 代码 如 下 : 
def f(xHat, g_embedding, K): 


cell = rnn.BasicLSTMCell (64) 
previous_state = cell.zero_state(batch size, tf.float32) 


for step in xrange (K): 
output, state = cell (XHat, previous_state) 
h_k = tf.add(output, XHat) 
#Softmax 注意 力 
content_based_attention = 
tf.nn.softmax(tf.multiply (previous_state[l1l], g_embedding)) 
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r_k = tf.reduce_ sum(tf.multiply (content_based attention, 
g_embedding), axis=0) 


previous_state = rnn.LSTMStateTuple(state[0], tf.add(h k, r_k)) 


return output 


4.4 匹配 网 络 的 架构 


匹配 网 络 的 总 体 流程 如 图 4-9 所 示 ,， 它 与 我 们 已 见 过 的 图 像 不 同 。 注 意 支撑 集 x 和 查询 集 交 
是 如 何 分 别 通 过 髋 入 函数 g 和 了 计算 的 。 可 以 看 到 ， 风 入 函数 将 查询 集 和 支撑 集 的 退 入 作为 
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。 -一 到 
g 腾 入 | 查询 图 像 
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softmax (cos(/(x), 
2(X)))) 
了 
狗 
ax) | argmax 
联 大 8 | 
函数 2 》 
pO |X,s) 


图 4-9 


4.5 TensorFlow 中 的 匹配 网 络 


我 们 现在 将 逐步 了 解 如 何在 TensorFlow 中 构建 匹配 网 络 。 完 整 代码 在 最 后 。 
首先 ， 导 入 所 需 库 : 





> 
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import tensorflow as tf 
slim = tf.contrib.slim 
rnn = tf, CoNntrilb, rnn 


现在 ， 定义 一 个 Matching _ network 类 ， 用 于 定义 网 络 : 


class Matching_ network(): 


定义 init 方法 ， 用 于 初始 化 所 有 变量 : 


def __init__(self, lr, n way, k_shot, batch_ size=32): 

# 支 撑 集 的 占 位 符 

self.support_set_image = tf.placeholder (tf.float32, [None, n way * 
k_shot, 28, 28, 1]) 

self.support_set_label = tf.placeholder (tf.int32, [None, n way * 
k_shot, ]) 

# 查 询 集 的 占 位 符 

self.gquery_image = tf.placeholder (tf.float32, [None, 28, 28, 1]) 

self.gquery_label = tf.placeholder (tf.int32, [None, ]) 


假设 支撑 集 和 查询 集 有 图 像 。 在 将 该 原始 图 像 输入 伐 入 函数 之 前 , 我 们 首先 使 用 卷 积 网 络 从 
图 像 中 提取 特征 ， 然 后 将 提取 的 支撑 集 和 查询 集 的 特征 分 别 输入 g 和 上 的 嵌入 函数 。 


因此 , 我 们 会 定义 一 个 称 为 image_encoder 的 函数 , 用 于 对 图 像 中 的 特征 进行 编码 。 使 用 
具有 最 大 池 化 操作 的 四 层 卷 积 网 络 作为 图 像 编 码 需 : 


def image_encodqer (self, image): 












































with slim.arg_scope([slim.conv2d], num outputs=64, kernel_ size=3, 
normalizer_fn=slim.batch norm): 
# 卷 积 层 1 
net = slim.conv2d (image) 
net = slim.max_pool2d(net, [2, 2]) 
# 卷 积 层 2 
net = slim.conv2d (net) 
net = slim.max_pool2d(net, [2, 2]) 
# 卷 积 层 3 
net = slim.conv2d (net) 
net = slim.max_ pool2d(net, [2, 2]) 
# 卷 积 层 4 
net = slim.conv2d (net) 
net = slim.max_pool2d(net, [2, 2]) 
return tf.reshape(net, [-1, 1 * 1 * 64]) 


现在 定义 艇 入 函数 ,我们 已 在 “区 入 函数 ”一 节 中 看 到 舱 入 函数 f 和 g 是 如 何 定义 的 。 因此 ， 
可 以 直接 定义 它们 : 


# 提 取 支 撑 集 谋 入 的 谋 入 冰 数 
def g(self, x_i): 


forward_cell = rnn.BasicLSTMCell (32) 
backward_cell = rnn.BasicLSTMCell (32) 
outputs, state_ forward, state backward = 
rnn.static bidirectional_rnn(forward cell, backward cell, x_i, 
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dtype=tf.float32) 
return tf.add(tf.stack(x_i), tf.stack(outputs)) 


# 提 取 查 询 集 嵌入 的 嵌入 六 数 
def f(self, XHat, g_embedding): 
cell = rnn.BasicLSTMCell (64) 
prev_state = cell.zero_state(self.batch size, tf.float32) 


for step in xrange(self.processing_steps): 
output, state = cell (XHat, prev_state) 
hk = tf.add(output, XHat) 


content_based_ attention = 
tf.nn.softmax(tf.multiply (prev_state[1], g_embedding)) 

r_k = tf.reduce_suml(tf.multiply (content_ based_ attention, 
g_embedding), axis=0) 








prev_state = rnn.LSTMStateTuple(state[0], tf.add(h _k, r_k)) 








return output 
现在 ,定义 函数 cosine similarity 来 学 习 支 撑 集 和 查询 集散 入 之 间 的 余弦 相似 度 : 4 


def cosine_ similarity (self, target, support_set): 

target_normed = target 

sup_similarity = [] 

for i in tf.unstack (support_set): 
i_normed = tf.nn.12_ normalize(i, 1) 
similarity = tf.matmul (tf.expand dims (target_normed, 1), 

tf.expand_ dims (i_normed, 2)) 

sup_similarity.append (similarity) 


return tf.squeeze(tf.stack(sup_similarity, axis=1)) 
最 后 ， 使 用 函数 train 来 执行 训练 操作 。 让 我 们 一 步 一 步 来 : 
def train(self, support_set_image, support_set_label, query_image): 


首先 ,使 用 图 像 编 码 带 编码 支撑 集 图 像 的 特征 : 


support_set_image_encoded = [self.image_ encoder(i) for i in 
tf.unstack (support_set_image, axis=1)] 


然后 ， 使 用 图 像 编 码 带 编码 查询 集 图 像 的 特征 : 


query_image_encoded = self.image encoder (guery_image) 


接 下 来 ,使 用 腻 入 函数 g 学 习 支 撑 集 的 嵌入 : 


g_embedding = self.g(support_set_image_ encoded) 


同样 ， 使 用 嵌入 函数 了 来 学 习 查 询 集 的 谋 人 : 


f_embedding = self.f(gquery_image encoded, g_embedding) 
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现在 ,计算 这 两 个 脱 入 之 间 的 cosine similarity: 


embeddings_similarity = self.cosine similarity(f_embedding, 
g_embedding) 


然后 ， 对 余弦 相似 度 执行 softmax 注意 力 : 
attention = tf.nn.softmax(embeddings_similarity) 
通过 将 注意 力矩 阵 与 独 热 编码 的 支撑 集 标签 相 乘 来 预测 查询 集 标 签 : 


y_hat = tf.matmul (tf.expand dims (attention, 1), 
tf.one hot (support_set_label, self.n way)) 











之 后 ， 得 到 propbabilities: 


probabilities = tf.squeeze(y_hat) 


选择 概率 最 高 的 索引 作为 查询 图 像 的 类 : 


predictions = tf.argmax(self.logits, 1) 


最 后 ， 定 义 损失 函数 。 使 用 softmax 交叉 炉 作为 损失 函数 : 


1oss_function = tft.losses.sparse_softmax_cross_entropy (label, 
self.probabilities) 


使 用 AGamOptimizer 来 最 小 化 损失 函数 : 


tt.train.AdqamoOptimizer(selLlf. LIr).minimize(selLlf.1oss_op) 


现在 ， 可 以 看 到 匹配 网 络 完整 的 最 终 代码 : 


class Matching_ network(): 
# 初 始 化 所 有 变量 
def __init__(self, lr, n way, k_shot, batch_ size=32): 
# 支 撑 集 的 占 位 符 
self.support_set_image = tf.placeholder (tf.float32, [None, n_way 
Kober Bs. 1) 
self.support_set_label = tf.placeholder (tf.int32, [None, n way * 
k_shot, ]) 
# 查 询 集 的 占 位 符 
self.gquery_image = tf.placeholder (tf.float32, [None, 28, 28, 1]) 
self.gquery_label = tf.placeholder (tf.int32, [None, ]) 
# 从 图 像 中 提取 特征 的 编码 函数 
def image_enmncodqer (self, image): 
with slim.arg_scope([slim.conv2d], num outputs=64, kernel_ size=3, 
normalizer_fn=slim.batch norm) : 
# 卷 积 层 1 
net = slim.conv2d (image) 
net = slim.max pool2d(net, [2, 2]) 
# 卷 积 层 2 
net = slim.conv2d (net) 
net = slim.max_pool2d(net, [2, 2]) 
# 卷 积 层 3 
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net = slim.conv2d (net) 
net = slim.max_ pool2d(net, [2, 21]) 
# 卷 积 层 4 
net = slim.conv2d (net) 
net = slim.max_ pool2d(net, [2, 21]) 
return tf.reshape(net, [-1, 1 * 1 * 64]) 
# 提 取 支 撑 集 谋 入 的 嵌入 水 数 


def g(self, x_i): 


forward_cell = rnn.BasicLSTMCell] (32) 

backward_cell = rnn.BasicLSTMCel] (32) 

outputs, state_forward, state_ backward = 
rnn.static bidirectional_rnn(forward cell, backward_ cell, x_i, 
dtype=tf.float32) 

return tf.add(tf.stack(x_i), tf.stack(outputs)) 


# 提 取 查 询 集 谋 入 的 谋 入 济 数 
def f(self, XHat, g_embedding): 
cell = rnn.BasicLSTMCell (64) 
prev_state = cell.zero_statel(self.batch size, tf.float32) 





for step in xrange(self.processing_steps): 
output, state = cell (XHat, prev_state) 
h_k = tf.add(output, XHat) 





content_based attention = 
tf.nn.softmax(tf.multiply (prev_state[1], g_embedding)) 

r_k = tf.reduce_sum(tf.multiply (content_ based_ attention, 
g_embedding), axis=0) 








prev_state = rnn.LSTMStateTuple(state[0], tf.add(h_k, r_k)) 


return .Outpart 


# 余 弦 相 似 度 池 数 ， 用 于 计算 支撑 集 谋 入 与 查询 集 谋 入 之 间 的 余弦 相似 度 
def cosine similarity (self, target, support_set): 
target_normed = target 
sup_similarity = [ 
for i in tf.unstack (support_set): 
i_normed = tf.nn.12 _ normalize(i, 1) 
similarity = tf.matmul (tf.expand dims (target_ normed, 1), 
tf.expand_ dims (i_normed, 2)) 
sup_similarity.append (similarity) 


return tf.squeeze(tf.stack(sup_similarity, axis=1)) 











def train(self, support_set_image, support_set_label, query_image): 
# 使 用 图 像 编码 器 来 编码 查询 集 图 像 的 特征 
query_image_encoded = self.image_ encoder (query_image) 
# 使 用 图 像 编码 器 来 编码 支撑 集 图 像 的 特征 
support_set_image_encoded = [self.image_ encoder(i) for i in 
tf.unstack (support_set_image, axis=1)] 
# 使 用 谋 入 总数 g 生成 支撑 集 谋 入 
g_embedding = self.g(support_set_image encoded) 
# 使 用 庶 入 泡 数 f 生成 查询 集 庶 入 
f_embedding = self.f(gquery_image encoded, g_embedding) 
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# 计 算 两 种 谋 入 间 的 余弦 相似 度 

embeddings_similarity = self.cosine similarity(f_embedding, 
g_embedding) 

# 对 余弦 相似 度 执行 注 意 力 

attention = tf.nn.softmax(embeddings_similarity) 

# 通 过 将 注意 力矩 阵 与 独 热 编码 的 支撑 集 标签 相 来 来 预测 查询 集 标签 

y_hat = tf.matmul (tf.expand dims (attention, 1), 
tf.one hot (support_set_label, self.n way)) 

# 获 取 概 率 

probabilities = tf.squeeze(y_hat) 

# 选 择 概 率 最 高 的 索引 作为 查询 图 像 的 类 

predictions = tf.argmax(self.probabilities, 1) 

# 使 用 softmax 交 又 灶 作 为 损失 部 数 

loss_function = tf.losses.sparse_softmax_ cross_entropy (label, 
self.probabilities) 

# 使 用 adam 优化 器 来 最 小 化 损失 函数 


tf.train.AdamOptimizer (self.1r) .minimize(self.loss_op) 





4.6 小结 





在 本 章 , 我 们 学 习 了 匹配 网 络 和 关系 网 络 在 少 样本 学 习 中 的 应 用 ; 了 解 了 关系 网 络 如 何 学 习 
支撑 集 和 查询 集 的 误 入 ,并 将 戏 入 组 合 起 来 ,将 它们 输入 关系 函数 来 计算 关系 得 分 ; 研究 了 匹配 
网 络 如 何 使 用 两 个 不 同 的 误 入 函数 来 学 习 支 撑 集 和 查询 集 的 误 和 信 ， 以 及 它 如 何 预 测 查询 集 的 类 。 


在 下 一 童 ， 我 们 将 通过 向 存储 器 中 存 取信 息 来 学 习 神经 图 灵机 与 记忆 增强 神经 网 络 的 运作 
方式 。 


























4.7 思考 题 


(1) 关系 网 络 中 使 用 了 哪 几 种 函数 ? 
(2) 关系 网 络 中 的 运算 符 Z 是 什么 ? 
(3) 什么 是 关系 函数 ? 

(4) 关系 网 络 的 损失 函数 是 什么 ? 

(5) 匹配 网 络 中 使 用 了 哪 几 种 能 入 函数 ? 
(6) 匹配 网 络 如 何 预测 查询 点 的 类 别 ? 








4.8 延伸 阅读 


口 匹配 网 络 : 参见 Oriol Vinyals 、Charles Blundell 、Timothy Lillicrap 等 人 的 文章 Matching 
Networks for One Shot Learning。 

口 关系 网 络 : 参见 Flood Sung、Yongxin Yang、Li Zhang 等 人 的 文章 Learning to Compare: 
Relation Network for Few-Shot Learningo 








记忆 增强 神经 网 络 











前 几 章 介 绍 了 几 种 基于 距离 的 度量 学 习 算 法 。 我们 从 李 生 网 络 开始 ,了解 了 挛 生 网 络 如 何 学 
会 区 分 两 个 输入 ; 然后 研究 了 原型 网 络 和 原型 网 络 的 变 体 ， 如 高 斯 原型 网 络 和 半 原 型 网 络 ; 之 后 
探索 了 有 趣 的 匹配 网 络 和 关系 网 络 。 


在 这 一 章 ， 我 们 将 学 习 记 忆 增 强 神经 网 络 ( memory-augmented neural networks ，MANN )， 
该 网 络 用 于 单 样本 学 习 。 在 深入 研究 MANN 之 前 ， 我 们 将 了 解 它 的 前 身 ， 神 经 图 灵机 (Neural 
Turing Machines，NTM )， 并 学 习 NTM 如 何 利用 外 存储 器 存储 和 检索 信息 ， 以 及 如 何 使 用 NTM 
执行 复制 任务 。 


本 章 内 容 包括 : 


口 NIM; 

口 NTM 中 的 读 写 ; 

口 寻 址 机 制 ; 

口 使 用 NTM 执行 复制 任务 ; 
口 MANN ; 

口 MANN 中 的 读 写 。 
































5.1 NTM 


NTM 是 一 种 有 趣 的 算法 ， 它 能 够 在 存储 器 中 存储 和 检索 信息 ， 其 思想 是 用 外 存储 器 来 增强 
神经 网 络 ， 也 就 是 说 ，NTM 不 是 使 用 隐藏 状态 作为 存储 器 ， 而 是 使 用 外 存储 器 来 存储 和 检索 信 
息 ， 其 架构 如 图 5-1 所 示 。 
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下 面 是 NTM 的 重要 组 件 。 


口 控制 器 : 基本 上 是 前 馈 神经 网 络 或 递归 神经 网 络 ; 对 存储 器 进行 读 写 。 

口 存储 器 : 存储 和 矩阵 ( memory matrix )、 存 储 体 ( memory bank ) 或 简单 的 存储 需 ， 是 我 们 
存储 信息 的 地 方 。 存 储 和 矩阵 基本 上 是 由 记忆 细胞 组 成 的 二 维和 矩阵 ， 包 含 N 行 和 MM 列 。 我 
们 使 用 控制 器 从 存储 妖 中 访问 内 容 。 因 此 ， 控 制 器 接收 来 自 外 部 环境 的 输入 ， 并 通过 与 
存储 矩阵 交互 发 出 响应 。 

口 读 头 和 写 头 : 读 头 和 写 头 是 包含 存储 器 地 址 的 指针 ， 它 必须 从 存储 器 中 读 写 。 


但 如 何 访问 存储 器 中 的 信息 呢 ? 可 以 通过 指定 行 索 引 和 列 索 引 来 访问 存储 器 中 的 信息 吗 ? 
是 的 ， 可 以 ,不 过 问题 是 ， 如 果 通 过 索引 访问 信息 ， 就 不 能 使 用 梯度 下 降 来 训练 NTM， 这 是 因 
为 无 法 计算 索引 的 梯度 。 因 此 ,NTM 的 作者 定义 了 使 用 控制 器 读 写 的 模糊 操作 (blurry operation )。 
模糊 操作 会 在 一 定 程度 上 与 存储 器 中 的 所 有 元 素 交 互 。 它 基本 上 是 一 种 注意 力 机 制 ， 强烈 关 注 存 
储 器 中 重要 的 读 / 写 位 置 ， 而 忽略 其 他 位 置 。 因 此 ， 我 们 使 用 特殊 的 读 和 写 操作 来 确定 要 关注 存 
储 咒 中 的 哪个 位 置 。 下 一 节 会 进一步 探讨 读 写 操作 。 






































































































































5.1.1 NTM 中 的 读 与 写 
现在 我 们 来 看 看 如 何 读 写 存 储 矩 阵 。 
1. 读 操 作 


读 操作 从 存储 器 中 读 取 一 个 值 ， 但 存储 矩阵 中 有 很 多 内 存 块 (memory block )， 我 们 需要 在 
存储 器 中 选择 哪个 来 读 取 呢 ? 这 由 权 向 量 决定 。 权 向 量 确定 存储 器 中 区 域 的 重要 性 。 我们 用 注意 
力 机 制 来 得 到 权 向 量 。 下 一 节 将 详细 讨论 如 何 精确 地 计算 权 向 量 。 权 向 量 是 归 一 化 的 , 这 意味 着 
它 的 取 值 范围 为 0-1， 并 且 值 的 和 等 于 1。 图 5-2 为 长 度 的 权 向 量 。 
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图 5-2 权 向 量 (w) 
我 们 用 w, 表示 这 个 归 一 化 的 权 向 量 , 其 中 下 标 t 表示 时 间 ，w,(i) 表示 权 向 量 中 索引 i 
1 处 的 元 素 : 





、 时 间 
Dw)=1, Ow(i)<1l, vi 
如 图 5-3 所 示 ， 存 储 和 矩阵 由 NN 行 和 M 列 组 成 。 将 1 时 刻 的 存储 矩阵 记 为 WA 。 


MM 到 











N 行 























存储 矩阵 〈《44， 


图 5-3 


一 旦 有 了 权 疝 量 和 存储 矩阵, 我们 就 将 存储 矩阵 M, 和 权 向 量 ww 进行 线性 组 合 ,得 到 读 向 量 
(read vector ) 下， 如 图 5-4 所 示 。 
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存储 矩阵 (M.) 








图 。5-4 读 操 作 
表达 式 如 下 : 
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1<->mi(DMOD 
可 以 看 到 ,上 图 中 有 NWN 行 和 MM 列 的 存储 和 矩阵， 以 及 大 小 为 N 的 权 向 量 ， 其 中 包含 所 有 N 个 
位 置 的 权重 。 对 它们 进行 线性 组 合 ， 得 到 长 度 为 M 的 读 向 量 。 
2. 写 操 作 


与 读 操作 不 同 ， 写 操作 由 两 个 子 操作 组 成 : 擦 除 (erase ) 和 添加 (add )。 这 两 个 子 操作 分 别 
捧 除 旧 信息 和 向 存储 器 添加 新 信息 。 


@ 擦 除 操作 


我 们 使 用 擦 除 操作 来 删除 存储 器 中 不 需要 的 信息 后 , 会 得 到 更 新 后 的 存储 矩阵 , 其 中 原 有 的 
一 些 元 素 会 被 擦 除 。 如 何 删 除 存储 矩阵 中 特定 单元 格 的 值 呢 ? 这 里 引入 擦 除 向 量 e,, 它 和 权 向 量 
w, 一 样 长 ， 0 和 1 组 成 。 

我 们 已 有 了 擦 除 向 量 ,但 如 何 擦 除 值 并 得 到 更 新 后 的 存储 和 矩阵 呢 ? 将 (1- we') 乘 以 上 一 步 的 
存储 矩阵 MM,， ， 即 可 得 到 更 新 后 的 存储 和 矩阵 MM 。 


也 就 是 


一 















































M' (i) <-(1—w,(i)e)M, GO 
它 是 如 何 起 作用 的 呢 ? 只 有 当权 重 和 索引 处 的 擦 除 元 素 都 为 1 时 ， 存 储 器 中 的 特定 元 素 才 会 被 
设置 为 0， 即 被 擦 除 ; 否则 ， 它 将 保留 自己 的 值 。 如 图 5-5 所 示 ， 首 先 将 权 向 量 w, 与 擦 除 向 量 @， 
相 乘 。 










































































0 0 1 0 @ 0 ] 0 ] 1 0 一 0 0 1 ] 0 
权 向 量 (w,) 擦 除 向 量 (e we, 
图 5-5 











然后 ,用 1 减 去 它 ， 即 (一 w(i)e,) ， 得 到 一 个 新 的 向 量 ， 如 图 5-6 所 示 。 














| 














(1 —w,: e) 





图 5-6 
然后 , 将 (4-me') 乘 以 上 一 步 的 存储 矩阵 WMA， , 得 到 更 新 后 的 存储 矩阵 WA; , 如 图 5-7 所 示 。 












































(一 We) 












































更 新 后 的 存储 矩阵 (M) 上 一 步 的 存储 矩阵 (47 ) 
图 5-7 擦 除 操作 
@ 添加 操作 


完成 擦 除 操作 后 ， 得 到 更 新 后 的 存储 矩阵 M， ， 其 中 存储 器 中 的 一 些 元 素 会 被 擦 除 。 现 在 ， 
要 向 存储 和 矩阵 中 添加 新 信息 ， 该 怎么 做 呢 ? 可 以 引入 另 一 个 向 量 一 一 加 向 量 (add vector ) a ， 
它 包含 要 添加 到 存储 器 中 的 值 。 如 图 5-8 所 示 ， 把 权 向 量 w 与 加 向 量 w 的 元 素 相 乘 ， 然 后 将 其 与 
存储 矩阵 相 加 ， 即 MG) < 一 Mi (0)+w,(Da,。 


















































权 向 量 《w,) 加 向 量 (a) 






























































更 新 后 的 存储 矩阵 (4 ) 擦 除 过 的 存储 和 矩阵 (4 ) 
图 5-8 添加 操作 





5.1.2 寻 址 机 制 


目前 为 止 , 我 们 已 了 解 了 如 何 执 行 读 写 操作 ,以 及 如 何 用 权 向 量 来 执行 这 些 操作 , 但 如 何 计 
算 这 个 权 向 量 呢 ?使 用 注意 力 机 制 和 不 同 的 寻 址 方案 来 计算 它 。 我 们 使 用 两 种 类 型 的 寻 址 机 制 来 
访问 存储 器 中 的 信息 : 


口 基于 内 容 的 寻 址 (content-based addressing ) 
口 基于 位 置 的 寻 址 ( location-based addressing ) 


1. 基于 内 容 的 寻 址 
在 基于 内 容 的 寻 址 中 ， 我 们 根据 相似 性 从 存储 器 中 选择 值 。 控 制 器 返回 一 个 键 向 量 ( key 
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vector ) 无 。 我 们 将 这 个 键 向 量 与 存储 矩阵 M, 中 的 每 一 行进 行 比较 ， 以 学 习 相似 性 。 使 用 余 
弦 相 似 度 作为 相似 性 度量 来 检验 相似 性 ， 公 式 如 下 : 
k-:M 


cos[k,,M, |= 攻 [i 


1 1 


我 们 引入 了 一 个 新 参数 一 一 键 强度 ( key strength ) 6。 它 决定 了 权 疝 量 的 集中 程度 。 根据 6 的 
值 ， 可 以 增加 或 减少 焦点 (focus )， 也 就 是 说 ， 可 以 根据 键 强度 6 的 值 调整 我 们 对 特定 位 置 的 注意 
力 。 当 的 值 较 小 时 ， 所 有 位 置 的 注意 力 相 当 ; 当 p 的 值 较 大 时 ， 注 意 力 集 中 在 特定 的 位 置 。 


因此 ， 权 向 量变 成 如 下 表达 式 : 





















































wr = p, cos[k,, M,()| 





即 , 键 向 量 与 存储 矩阵 M, 之 间 的 余弦 相似 度 , 乘 以 键 强度 8 。w; 中 的 上 标 c 表 示 它 们 是 基于 
内 容 的 权重 。 我 们 不 直接 使 用 它 ， 而 是 对 权重 应 用 softmax。 因 此 ， 最 终 权 重 如 下 : 





exp(p, cos[k,, M.D) 
5 exp(p, cos[k,, MD) 





2. 基于 位 置 的 寻 址 


与 基于 内 容 的 寻 址 不 同 , 在 基于 位 置 的 寻 址 中 , 我 们 关注 的 是 位 置 而 不 是 内 容 相 似 度 。 它 包 
括 3 个 步骤 : 


(1) 插值 (interpolation ) 
(2) 卷 积 位 移 ( convolution shift ) 
(3) 锐 化 (sharpening ) 


@ 插值 


第 一 步 称 为 插值 。 它 用 于 决定 是 使 用 上 一 个 时 刻 得 到 的 权重 w,，, 还 是 使 用 基于 内 容 的 寻 址 
得 到 的 权重 wr 。 这 该 如 何 决定 呢 ? 我 们 使 用 一 个 新 的 标量 参数 g, , 用 于 确定 应 该 使 用 哪些 权重 。 
g, 的 值 是 0 或 1。 


权 向 量 的 计算 表达 式 如 下 : 


























we -gw + (1—g,)w, 

















口 当 g, 为 0 时 , 方程 变 成 ws < -w ,， 这 意味 着 权 疝 量 由 上 一 个 时 刻 得 到 。 
口 当 g, 为 1 时 ， 方程 变 成 上 < -w* ， 这 意味 着 权 向 量 由 基于 内 容 的 寻 址 得 到 。 


因此 g, 的 值 就 像 一 个 阀门 ， 用 来 切换 不 同 的 权重 。 














3.1 NIM 67 





@ 卷 积 位 移 
下 一 步 是 卷 积 位 移 。 它 用 于 移动 头 位 置 (head position )， 也 就 是 说 ， 将 焦点 从 一 个 位 置 移动 

















到 另 一 个 位 置 。 每 个 头 产生 一 个 参数 一 一 位 移 权 重 % ， 位 移 权 重 给 出 允许 整数 位 移 的 分 布 区 间 。 
例如 ， 假 设 允 许 在 -1~1 范围 内 移动 ， 那 么 s, 的 长 度 会 变 为 3， 并 由 {-1,0,1} 组 成 。 


因此 ， 这 些 位 移 究 况 意 味 着 什么 呢 ?” 假 设 权 向 量 ws 中 有 3 个 元 素 , 即 ws = [mg ,ws,wsi]， 
位 移 向 量 的 中 也 有 3 个 元 素 ， 即 s, =[-1,0,1] 。 








位 移 -1 意味 着 把 元 素 从 左 到 右 移 动 。 位 移 0 使 元 素 保 持 在 相同 的 位 置 ， 位 移 +1 意味 着 把 元 
素 从 右 向 左 移动 ， 如 图 5-9 所 示 。 









































2 一 Wa 此 Wi 
wp Ww, Ww | WwW, | 
图 5-9 








在 图 5-10 中 , 位 移 权 重 s, = [1,0,0] , 意味 着 我 们 进行 左 移 , 这 是 因为 位 移 值 在 其 他 位 置 为 0。 
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图 5-10 


同样 ， 当 s, =[0,0.H] 时， 我 们 进行 右 移 ， 因 为 位 移 值 在 其 他 位 置 为 0， 如 图 5-11 所 示 。 
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图 5-11 


这 样 就 对 权重 矩阵 中 的 元 素 进 行 了 卷 积 位 移 。 如 果 存 储 位 置 为 0~N-1, 那么 可 以 将 卷 积 位 移 
表示 为 如 下 : 



































N-l 
wi (i) < -2 ws())s,(i—)) 
j=0 
@ 锐 化 


最 后 一 步 叫 作 锐 化 。 由 于 卷 积 位 移 ， 权 重 wi 不 会 很 尖锐 ; 换 句 话说 ， 由 于 位 移 ， 集 中 在 一 
个 位 置 的 权重 会 分 散 到 其 他 位 置 。 为 了 减轻 这 种 影响 ,需要 进行 锐 化 。 使 用 一 个 新 的 参数 y, 三 1 
来 进行 锐 化 ， 表 达 式 如 下 : 














w, ()” 
2 07)” 


w,(i) <— 


5.2 使 用 NTM 复制 任务 

本 节 我 们 学 习 如 何 使 用 NTM 执行 复制 任务 。 复 制 任务 的 目标 是 观察 NTM 如 何 存 储 和 回收 
任意 长 度 的 序列 。 我 们 将 向 网 络 提供 一 个 随机 序列 以 及 一 个 表示 序列 结束 的 标记 。 网 络 必须 学 会 
输出 给 定 的 输入 序列 ， 因 此 , 它 将 把 输入 序列 存储 在 存储 器 中 ,然后 从 存储 器 中 读 取 。 现 在 ,我 
们 将 逐步 了 解 如 何 执 行 复制 任务 ， 并 会 在 最 后 看 到 完整 代码 。 

你 也 可 以 在 GitHub 网 站 搜索 Hands-On-Meta-Learning-With-Python， 在 带 有 注释 的 Jupyter 
Notebook 中 查看 相应 代码 。 


首先 将 了 解 如 何 实现 NTM 信 元 (NTM cell )， 我 们 逐步 来 看 一 下 。 


























定义 NTMCell 类 ， 用 于 实现 完整 的 NTM 信 元 : 


class NTMCell (): 


定义 init 方法 ， 用 于 初始 化 所 有 变量 : 
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def _ init__ (self, rnn_ size, memory_size, memory_vector_dim, 
read_heagd _ num, write head_num, 
addressing_ mode='content_angd_ location', shift_ range=1, 
reuse=False, output_dim=None): 


# 初 始 化 所 有 变量 

self.rnn_ size = rnn size 

self.memory_size = memory_size 
self.memory_vector_dim = memory_vector_dim 
self.read head num = read_ head num 
self.write head num = write head num 
self.addressing _ mode = addressing_ mode 
self.reuse = reuse 

self.step = 0 

self.output_dim = output_dim 
self.shift_range = shift_ range 

# 初 始 化 控制 器 作为 基本 RNN 单元 

self.controller = tf.nn.rnn cell.BasicRNNCell (self.rnn size) 








定义 ”call 方法， 用 于 实现 NTM 的 操作 : 
def _ call__(self, x, prev_state): 
通过 将 输入 x 与 之 前 读 取 的 向 量 列表 结合 ， 获 得 控制 器 的 输入 : 


prev_read vector_list = prev_state['read vector_ list'] 
prev_controller_state = prev_statel['controller_state'] 





controller_input = tf.concat ([x] + prev_read vector_list, axis=1) 





通过 将 controller input 和 prev_ controller state 输入 ,我们 构建 控制 器 ， 即 RNN 


单元 : 


with tf.variable_ scope('controller', reuse=self.reuse): 
controller_output, controller_ state = self.controller(controller_ input, 
prev_controller_state) 


初始 化 读 头 与 写 头 : 


Dum_pParameters_per_head = self.memory_vector dim + 1 + 1+ 
(Self.shift_range * 2 + 1) +1 

num_ heads = self.read head num + self.write head_ num 
total_parameter_ num = num parameters_ per_ head * num heads + 
self.memory_vector dim * 2 * self.write_ head num 


初始 化 权重 矩阵 以 及 偏 置 (bias )， 并 使 用 前 馈 操 作 计 算 参 数 : 


with tf.variable_scope("o2p", reuse=(self.step > 0) or self.reuse): 
oO2p_w = tf.get_variable('o2p_w', [controller_ output.get_shape()[1], 
total_parameter_numl], 
initializer=tf.random normal_initializer(mean=0.0, stddev=0.5)) 
o2p_b = tf.get_variable('o2p_b', [total parameter_ num], 
initializer=tf.random normal_initializer(mean=0.0, stddev=0.5)) 
parameters = tf.nn.xw_ plus_b(controller_output, o2p_w, 02p_b) 
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head_ parameter_list = tf.split(parameters[:, :num parameters_pPer_head * 
num heads], num heads, axis=1) 

erase_ add list = tf.split (parameters[:, num parameters per head * 

num heads:], 2 * self.write head num, axis=1) 


得 到 上 一 步 的 权 向 量 与 存储 器 : 
# 上 一 步 的 权 向 量 


prev_w_list = Prev_state['w_ list'] 











# 上 一 步 的 存储 器 


prev_M = prev_state['M'] 


Wl LS: sd] 
BD- ist =] 


现在 初始 化 一 些 用 于 寻 址 的 重要 参数 : 
for i, head parameter in enumerate(head parameter_ list): 


# 键 向 量 


k = tf.tanh(head parameter[:, 0:self.memory_vector_dim]) 


# 键 强度 (beta) 


beta = tf.sigmoid(head parameter[:, self.memory_vector_ dim]) * 10 
# 插 值 门 
g = tf.sigmoid(head parameter[:, self.memory_vector dim + 1]) 
# 移 位 矩阵 
= 
head_ parameter[:, self.memory_vector_ dim + 2:self.memory_vector_dim 


+ 2 + (self.shift_ range * 2 + 1)] 
) 


# 锐 化 因子 
gamma = tf.log(tf.exp(head parameter[:, -1]) + 1) + 1 


with tf.variable scope('addressing head %d' % i): 
WwW = self.addressing(k, beta, g, s, gamma, prev_M, prev w_ list[i]) 


w_list.append (w) 
p_list.append({'k': k, 'beta': beta, 'g': g, 's': Ss8, 'gamma': gamma}) 


读 操作 

选择 读 头 : 

read w_list = w_ list[:self.read_ headq_num] 
读 操 作 是 权重 和 存储 器 的 线性 组 合 : 


reagd_vector_list = [] 
for i in range(self.read head num): 
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# 权 重 和 存储 器 的 线性 组 合 

read_vector = tf.redquce_sum(tf.expand_dqims (read w_ list[i], dim=2) * 
prev_M, axis=1) 

read_vector_list.append (read _ vector) 


写 操 作 

与 读 操 作 不 同 ， 写 操作 包括 擦 除 与 添加 两 步 。 
下 列 代码 选取 了 一 个 写 头 : 

write w_list = w_ list[lself.read head num:] 


# 更 新 存储 器 
M = prev_M 


执行 探 除 与 添加 操作 : 


for i in range(self.write head num): 


# 擦 除 向 量 将 与 权 向 量 相 来 ， 以 表示 要 擦 除 或 保持 不 变 的 位 置 





w = tf.expand dims (write w_ list[i], axis=2) 
erase_vector = tf.expand dims (tf.sigmoid(erase adqd list[i * 2])， 
axis=1) 
# 接 下 来 执行 添加 操作 
adqd_vector = tf.expand dims (tf.tanh(erase adqd list[i * 2 + 1]), axis=1) So 
M=M* (tf.ones(M.get_shape()) - tf.matmul (w, erase_ vector)) + 


tf.matmul (w, add_vector) 


获取 控制 带 输 出 : 


if not self.output_dim: 
output_dim = x.get_shape()[1] 

else: 
output_dim = self.output_dim 








with tf.variable_ scope("o20", reuse=(self.step > 0) or self.reuse): 
o2o_w = tf.get_variable('o20 w', [controller_ output.get_shape()[1], 
output_dim], 
initializer=tf.random normal_initializer(mean=0.0, stddev=0.5)) 
020_b = tf.get_variable('o20_b', [output_dim], 
initializer=tf.random normal_initializer(mean=0.0, stddev=0.5)) 
NTM_output = tf.nn.xw_plus_bl(controller_output, o20_w, 020_b) 
state = { 
'controller_state': controller_state, 











'read_ vector_list': read vector_list, 
'w_list': w list, 
'p. List': p.list;, 
“了 2 3 于 
} 


self.step += 1 
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寻 址 机 制 

我 们 使 用 两 种 寻 址 机 制 : 基于 内 容 的 寻 址 与 基于 位 置 的 寻 址 。 
基于 内 容 的 寻 址 

计算 键 向 量 与 存储 和 矩阵 之 间 的 余弦 相似 度 : 


k = tf.expangd dims (k, axis=2) 
inner_product = tf.matmul (prev_M, k) 














k_norm = tf.saqrt (tf.reduce_ sum(tf.square(k), axis=1, keepdims=True)) 

M norm = tf.sqrt (tf.reduce_ sum(tf.square (prev_M), axis=2, keepdims=True)) 

norm product = M norm * k_norm 

K = tf.squeeze(inner product / (norm product + 1e-8)) 

现在 ,根据 相似 度 和 键 强度 (beta ) 生成 归 一 化 权 向 量 。lbeta 用 于 调整 头 部 对 焦 精度 : 
K_amplified = tf.exp(tf.expangd_ dims (beta, axis=1) * K) 


wc = K_amplified / tf.reduce_ sum(K_amplified, axis=1, keepdims=True) # eq 
(5) 


基于 位 置 的 寻 址 
基于 位 置 的 寻 址 包括 3 个 步骤 : 


(1) 插值 
(2) 卷 积 位 移 
(3) 锐 化 


插值 


这 用 于 决定 是 应 该 使 用 前 一 个 时 间 步 又 获得 的 权重 prev_w， 还 是 使 用 基于 内 容 的 寻 址 获得 
的 权重 w_c。 可 该 如 何 决定 呢 ? 我 们 使 用 一 个 新 的 标量 参数 gs， 来 决定 应 该 使 用 哪些 权重 : 


9 = tf.expand dims(g, axis=1) 

















Wd rE GTWEG F(T 29) Previw 

卷 积 位 移 

插值 后 进行 卷 积 位 移 ， 使 控制 器 能 够 集中 于 其 他 行 : 
s = tf.concat ([s[:, :self.shift range + 1], 


tf.zeros([s.get_shape() [0], self.memory_size - 
(self.shift range * 2 + 1)])， 
s[:, -self.shift_range:]], axis=1) 


t = tf.concat ([tf.reverse(s, axis=[1]), tf.reverse(s, axis=[1])], axis=1) 
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s_matrix = tf.stack!( 


[t[:, self.memory_size - i - 1l:self.memory_size * 2 -i- 1] for i in 
range (self.memory_size)], 

axis=1 
) 
w_ = tf.reduce_ sum(tf.expand dims(w_g, axis=1) * s_ matrix, axis=2) # eq (8) 


锐 化 
卷 积 位 移 后 进行 锐 化 操作 ， 以 避免 位 移 后 的 权 向 量变 模糊 : 


w_sharpen = tf.pow(w_, tf.expand dims (gamma, axis=1)) 
w = w_sharpen / tf.reduce sum(w_sharpen, axis=1, keepdims=True) 


然后 定义 一 个 名 为 zero_state 的 函数 ， 用 于 初始 化 控制 器 、 读 向 量 、 权 重 和 存储 器 的 所 
有 状态 : 


def zero_state(self, batch size, dtype): 
def expand (x, dim, N): 
return tf.concat ([tf.expand dims(x, dim) for _ in range(N)], 
axis=dim) 
with tf.variable_ scope('init', reuse=self.reuse): 
state = { 
'controller_state': 
expand (tf.tanh(tf.get_variable('init_state', self.rnn size, 
initializer=tf.random normal_initializer(mean=0.0, stddev=0.5))), 
dim=0, N=batch size), 
'read vector_list': 
[expand (tf.nn.softmax(tf.get_ variable('init r_ %d' 
[self.memory_vector_dim], 
initializer=tf.random normal_initializer(mean=0.0, stddev=0.5))), 
dim=0, N=batch size) 
for i in range(self.read head num)], 
'w_list': [expand (tf.nn.softmax(tf.get variable('init w_ %d' 





op 


Ty 


$$ i, [self.memory_sizel], 
initializer=tf.random normal_ initializer (mean=0.0, stddev=0.5))), 

dim=0, N=batch size) if 
self.addressing _ mode == 'content_and_ loaction' 

else tf.zeros([batch size, self.memory_sizel]) 
for i in range(self.read head num + 





self.write_ head num)], 

'M': expand (tf.tanh(tf.get_ variable('init M', 

[self.memory_size, self.memory_vector_dim], 

initializer=tf.random normal_initializer(mean=0.0, stddev=0.5))), 
dim=0, N=batch size) 








} 


return state 


接 下 来 定义 一 个 名 为 generate random string 的 函数 , 它 生 成 一 个 长 度 为 seq_length 
的 随机 序列 ， 我 们 将 这 些 序列 作为 NTM 的 输入 ， 用 于 复制 任务 : 
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def generate random strings (batch size, seq_length, vector_ dim): 
return np.random.randint (0, 2, size=[batch size, seq_length, 
vector_dim]) .astype (np.float32) 


现在 ,创建 NTMCopyModel 来 执行 整个 复制 任务 : 


class NTMCopyModel (): 
def _ init_ _(self, args, seqg_length, reuse=False): 
# 输 入 序列 
self.x = tf.placeholder (name='x', dtype=tf.float32, 
shape=[args.batch_ size, seqg_length, args.vector_ dim]) 


# 输 出 序列 

self.y = self.x 

# 序 列 末尾 

eof = np.zeros([args.batch size, args.vector dim + 1]) 
eof[:, args.vector_ dim] = np.ones([args.batch sizel]) 


eof = tf.constant (eof, dtype=tf.float32) 


Zero = tf.constant (np.zeros([args.batch size, args.vector dim + 


1]), dtype=tf.float32) 
if args.model == 'LSTM': 
def rnn_ cell (rnn size): 


return tf.nn.rnn_cell.BasicLSTMCell (rnn_size, reuse=reuse) 
cell = tf.nn.rnn cell.MultiRNNCell([rnn celll(args.rnn size) 


_ in range(args.rnn num layers)]) 
elif args.model == 'NTM': 
cell = NTMCell (args.rnn_size, args.memory_size, 
args.memory_vector_dim, 1, 1, 


二 


addressing_mode='content_angd_location', 


reuse=reuse, 
output_dim=args .vector_dim) 


# 初 始 化 所 有 状态 
state = cell.zero_state(args.batch size, tf.float32) 
self.state_list = [state] 
for t in range(seq_ length): 
outputy state se cell (tf oncat (lself .cls ty YY]; 
np.zZeros([args.batch size, 1])], axis=1), state) 


self.state_list.append (state) 
# 获 取 输 出 与 状态 
output, state = cell(eof, state) 
self.state_list.append (state) 


self.o = [] 

for t in range(seq_ length): 
output, state = cell (zero, state) 
self.o.append(output[:, 0:args.vector_ dim]) 
self.state_list.append (state) 

self.o = tf.sigmoid(tf.transpose(self.o, perm=[1, 0, 2])) 


eps = le-8 
# 将 损失 计算 为 交叉 炳 损失 
Self.copy loss = -tf.reduce mean(self.y * tf.log(self.o + eps) 


- Self.y) * tf.log(l1 - self.o + eps)) 
# 使 用 RMS prop 优化 器 进行 优化 


with tf.variable_ scope('optimizer', reuse=reuse): 


大 


(二 
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self.optimizer = 
tf.train.RMSPropOptimizer (learning_rate=args.learning_rate, momentum=0.9, 
decay=0.95) 

gvs = self.optimizer.compute gradients(self.copy_loss) 

capped_ gvs = [(tf.clip by_value(grad, -10., 10.), var) for 
grad, var in gvs] 

self.train op = self.optimizer.apply_gradients (capped_ gvs) 

self.copy_loss_summary = tf.summary.scalar('copy_loss_%d' % 

seq_length, self.copy_loss) 


我 们 使 用 以 下 命令 重 置 TensorFlow 图 ; 


tf.reset_default_graph() 


之 后 ， 定 义 所 有 参数 : 


parser = argparse.ArgumentParser() 
parser.add argument ('--mode', default="train") 

parser.add argument ('--restore training', default=False) 
parser.add argument ('--test_seq_ length', type=int, default=5) 
parser.add_ argument ('--model', default="NTM") 
parser.add argument ('--rnn_ size', default=16) 
parser.add argument ('--rnn _ num layers', default=3) 
parser.add argument ('--max_seq_length', default=5) 
parser.add argument ('--memory_size', default=16) 
parser.add argument ('--memory_vector_dim', default=5) 
parser.add argument ('--batch_ size', default=5) 
parser.add _ argument ('--vector_ dim', default=8) 
parser.add argument ('--shift range', default=1) 
parser.add_ argument ('--num epoches', default=100) 
parser.add argument ('--learning _ rate', default=1e-4) 
parser.add argument ('--save dir', default= os.getcwd()) 
parser.add _ argument ('--tensorboard dir', default=os.getcwd()) 
args = parser.parse_args(args = []) 











最 后 ， 定 义 training 困 数 : 


def train(args): 
model_list = [NTMCopyModel (args, 1)] 
for seq_length in range(2, args.max_seq _ length + 1): 
model_list.append (NTMCopyModel (args, seq_length, reuse=True)) 


with tf.Session() as sess: 
if args.restore training: 
saver = tf.train.Saver() 
ckpt = tf.train.get_checkpoint_state(args.save dir + '/' + 
args .model) 
saver.restore(sess, ckpt.model checkpoint path) 
else: 
saver = tf.train.Saver (tf.global_ variables()) 
tf.global_variables_initializer() .run() 
# 初 始 化 摘要 编写 器 ， 以 便 在 tensorboard 中 可 视 化 
train writer = tf.summary.FileWriter(args.tensorboard dir, 
sess.graph) 
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plt.ion() 
plt.show!() 
for b in range(args.num epoches): 
# 初 始 化 序列 长 度 
seq_length = np.random.randint (1, args.max_seq_ length + 1) 
model = model list[seq length - 1] 
# 生 成 随机 输入 序列 作为 输入 
x = generate random strings (args.batch size, seq_ length, 
args .vector_dim) 
# 将 随机 输入 序列 输入 模型 
feedq_ dict = {model.x: x} 
if BS -O00 SEE: 
区 ?三 "0 
print ("First training batch sample",x[p, :, :]) 
# 计 算 模型 输出 
print ("Model output",sess.runl(model.o, 
feed dict=feed dict)[p, :, :1]) 
state_list = sess.run(model.state_ list, 
feed dict=feed_ dict) 


if args.model == 'NTM': 
We DLOotSs:NE] 
M plot = np.concatenate([state['M'][p, :, :] for state 


in state_ list]) 
for State in state, list: 
w_plot.append(np.concatenate([state['w_ list'][0][p, 
se Statel we list LLI,. 311)) 
# 绘 制 权重 矩阵 以 观察 注意 力 
plt.imshow(w_plot, interpolation='nearest', 
cmap='gray') 


plt.draw!() 
plt.pause(0.001) 
# 计 算 损 类 
copy_loss = sess.run(model.copy_loss, feed_ dict=feed dict) 
# 编 写 摘要 
merged_summary = sess.run(model.copy_loss_summary, 


feed dict=feed_ dict) 
train writer.add_ summary (merged_summary, b) 
print('batches %d, loss %g' %$ (b, copy_loss)) 
else: 
sess.run(model.train op, feed_ dict=feed dict) 
# 保 存 模 型 
i 人 BS S000. ss 0 andb.S 0: 
saver.save(sess, args.save dir + '/' + args.model + 
'/model.tfmodel', global_step=b) 


我 们 使 用 下 列 命令 ， 开 始 训 练 NTM : 


train (args) 


输出 如 图 5-12， 可 以 看 到 注意 力 集 中 于 权重 矩阵 。 
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wm mm 上 hh 








5.3 MANN 


本 闻 我 们 会 学 习 一 个 有 趣 的 NTM 变 体 ， 叫 作 记忆 增强 神经 网 络 (MANN )。 它 广泛 用 于 单 
样本 学 习 任 务 ， 旨 在 让 NTM 在 单 样本 学 习 任务 中 表现 得 更 好 。 我 们 知道 NTM 既 可 以 使 用 基于 
内 容 的 寻 址 ， 又 可 以 使 用 基于 位 置 的 寻 址 ， 但 是 在 MANN 中 ， 只 使 用 基于 内 容 的 寻 址 。 




















MANN 使 用 了 一 种 新 的 寻 址 方案 ， 称 为 最 近 最 少 使 用 访问 ( least recently used access )。 顾 名 
思 义 ， 它 将 写 人 最 近 最 少 使 用 的 存储 器 位 置 。 等 等 ， 什 么 ? 我 们 刚刚 了 解 到 MANN 并 不 是 基于 
位 置 的 , 那么 为 什么 要 写 最 近 最 少 使 用 的 位 置 呢 ?这 是 因为 最 近 最 少 使 用 的 存储 器 位 置 由 读 操 作 
决定 ,而 读 操作 由 基于 内 容 的 寻 址 执行 。 因此, 我 们 基本 上 是 执行 基于 内 容 的 寻 址 来 读 写 最 近 最 
少 使 用 的 位 置 。 










































































读 操 作 和 写 操作 
本 节 我 们 学 习 如 何在 MANN 中 执行 读 操 作 和 写 操作 ， 以 及 它们 与 NTM 的 区 别 。 
1. 读 操作 


与 NTM 不 同 ， 在 MANN 中 ,我 们 使 用 两 个 不 同 的 权 向 量 来 执行 读 写 操作 。MANN 中 的 读 
操作 与 NTM 相同 。 因 为 在 MANN 中 使 用 基于 内 容 的 相似 性 执行 读 操作 ， 所 以 我 们 将 控制 名 发 
出 的 键 向 量 与 存储 和 矩阵 M, 中 的 每 一 行进 行 比较 ， 以 了 解 相似 性 。 我 们 使 用 余弦 相似 度 作为 相 
似 性 度量 来 检验 相似 性 ， 表 达 式 如 下 : 























kM 
cos[k,, M,]=——— 
| 大 | | 


1 





因此 ， 权 向 量变 成 如 下 的 表达 式 : 


w, = cos[k,, M.,(i)] 

















但 与 NTM 不 同 的 是 , 在 这 里 不 使 用 键 强度 6 。w’ 中 的 上 标 r 表示 它 是 读 向 量 。 最终 的 权 向 
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量 是 基于 权重 的 softmax: 


， exp(cos[k,, M., CO]) 
了 二 
2 exp(cos[k, , M.(7)]) 





读 向 量 是 权重 wi 与 存储 矩阵 M, 的 线性 组 合 : 


n < -Sw (OM, 





让 我 们 看 看 如 何 使 用 TensorFlow 构建 它 。 
首先 ， 使 用 基于 内 容 的 相似 性 计算 读 向 量 : 


def read_ head addressing(k, prev_M): 
k = tf.expand dims (k, axis=2) 
inner_product = tf.matmul (prev_M, k) 








k_norm = tf.sqrt(tf.reduce_ suml(tf.square(k), axis=1, 
keep_dims=True)) 
M norm = tf.sqrt (tf.reduce_ sum(tf.square (prev_M), axis=2, 


keep_dims=True)) 
GM PREOdGt. EM norm * Kk. Hoi 
K = tf.squeeze(inner product / (norm product + 1e-8)) 
K_exp = tf.exp(K) 
WwW = K_exp / tf.reduce_ sum(K_exp, axis=1, keep_dims=True) 
return w 


然后 ， 得 到 读 权 向 量 ( read weight vector ): 


w_r = read head addressing(k, prev_M) 


执行 读 操作 ， 即 读 权 向 量 与 存储 器 的 线性 组 合 : 


read_vector_list = [] 
with tf.variable scope('reading'): 
for i in range(self.head num): 
read_vector = tf.reduce_sum(tf.expand dims(w_r_ list[i], 
dim=2) * M, axis=1) 
read_vector_list.append (read_ vector) 





2. 写 操作 

在 执行 写 操作 之 前 , 我 们 希望 找到 最 近 最 少 使 用 的 存储 器 位 置 ， 因为 这 是 我 们 必须 写 入 的 位 
置 。 如何 找到 最 近 最 少 使 用 的 存储 器 位 置 呢 ?” 为 了 找到 它 , 我 们 计算 一 个 新 的 向 量 一 一 用 途 权 向 
量 w* ， 它 将 在 每 次 读 写 之 后 更 新 ， 且 只 是 读 权 向 量 和 写 权 向 量 的 和 ,， 即 w' < 一 w’ +wY” 。 


除了 添加 读 向 量 和 权 向 量 外 , 我 们 还 通过 添加 衰减 的 上 一 阶段 的 用 途 权 向 量 w”… 来 更 新 用 途 


权 向 量 。 我 们 使 用 衰减 参数 y ， 该 参数 用 于 确定 上 一 阶段 的 用 途 权重 是 如 何 衰减 的 。 因 此 ， 最 终 
的 用 途 权 向 量 是 上 一 阶段 用 途 权 向 量 的 衰减 、 读 权 向 量 、 写 权 向 量 的 和 : 
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u u a Ww 
w, <—Yw, +w,+w, 





现在 已 经 计算 了 用 途 权 向 量 , 如 何 计算 最 近 最 少 使 用 的 位 置 呢 ? 为 此 , 我 们 引入 了 另 一 个 权 
最 少 用 途 权 向 量 ( least used weight vector ) w” 。 


向 量 








由 用 途 权 向 量 ww 计算 最 少 使 用 权 向 量 wr 非常 简单 。 只 需 将 用 途 权 向 量 中 最 小 值 的 索引 设置 
为 1， 其 他 值 设置 为 0 即 可 ， 因 为 用 途 权 向 量 中 最 小 值 是 最 近 最 少 使 用 的 ( 见 图 5-13 )。 










































































图 5-13 














好 了 ， 接 下 来 是 什么 呢 ? 我 们 已 计算 了 最 近 最 少 使 用 权 向 量 。 现 在 ， 如 何 计算 写 权 向 量 w” 
呢 ? 我 们 使 用 sigmoid 门 计算 写 权 向 量 , sigmoid 门 用 于 计算 前 一 个 读 权 向 量 w 和 前 一 个 最 近 最 
少 使 用 权 向 量 w” 的 凸 组 合 ; 














w” <—o(o)w’ + 一 a(o) 


计算 写 权 向 量 后 ， 最 后 更 新 存储 矩阵 : 








M, O) < —M,, Qi) 出 mr (Dk, 




















下 面 是 如 何在 TensorFlow 中 构建 这 个 模型 。 

首先 ， 计 算 用 途 权 向 量 : 

wu = self.gamma * prev wu + tf.add nlwTr list) + tf.add nl(ww list) 
然后 ， 计 算 最 近 最 少 使 用 权 向 量 : 


def least_used(w_u): 
_, indices = tf.nn.top_k(w u, k=self.memory_size) 
w_lu = tf.reduce_suml(tf.one hot (indices[:, -self.head num:], 
depth=self.memory_size), axis=1) 
return indices, w_lu 


存储 上 一 步 的 索引 和 最 近 最 少 使 用 权 向 量 : 


Prev_indices，PpPrev w_ lu = least_used(Prev wu) 
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计算 写 权 向 量 : 


def write head addressing(sig_ alpha, prev_w_r, prev_w_ lu) : 
return sig_alpha * prev w_r + (1. - Sig alpha) * prev_w_lu 


之 后 ， 更 新 存储 矩阵 : 


M = prev M * tf.expangd dims(1. - tf.one hot(prev_indices[:, -1], 
self.memory_size), dim=2) 


执行 写 操作 : 


M 三 Mz. 
with tf.variable_ scope('writing'): 
for i in range(self.head num): 





WwW = tf.expand dims(w_w_list[i], axis=2) 
k = tf.expand dims (k_list[i], axis=1) 
M= M+ tf.matmull(w, k) 

5.4 小 结 


在 本 章 ， 我 们 首先 了 解 了 NTM 如 何 向 存储 器 中 存储 和 从 中 检索 信息 ， 以 及 它 如 何 使 用 不 同 
的 寻 址 机 制 〈 例 如 基于 位 置 和 基于 内 容 的 寻 址 ) 来 读 写 信息 ; 然后 学 习 了 如 何 使 用 TensorFlow 
来 实现 NTM, 以 执行 复制 任务 ; 之 后 探讨 了 MANN 以 及 MANN 与 NTM 的 不 同 之 处 ; 最 后 研究 
了 MANN 如 何 使 用 最 近 最 少 使 用 的 访问 方法 来 克服 NTM 的 缺点 。 


下 一 章 将 介绍 模型 无 关 元 学 习 及 其 在 监督 和 强化 学 习 场景 中 的 应 用 。 



































5.5 思考 题 


(1) 什么 是 NTM? 

(2) NTM 中 的 控制 器 是 什么 ? 

(3) 为 什么 使 用 读 头 与 写 头 ? 

(4) 什么 是 存储 器 ? 

(5) NTM 中 有 哪些 不 同 的 寻 址 方式 ? 

(6) 什么 是 插值 门 ? 

(7) 如 何 由 用 途 权 向 量 计算 出 最 近 最 少 使 用 权 问 量 ? 


























5.6 ”延伸 阅读 


口 NTM 论文 : Alex Graves、Greg Wayne 和 Ivo Danihelka 的 文章 Neural Turing Machines。 
口 使 用 记忆 增强 神经 网 络 进行 单 样本 学 习 : 参见 Adam Santoro、Sergey Bartunov、Matthew 
Botvinick 等 人 的 文章 One-shot Learning with Memory-Auemented Neural Networks。 























第 6 章 


MAML 及 其 变种 








在 前 一 章 ， 我 们 学 习 了 NTM 及 其 如 何 向 存储 器 中 存储 和 从 中 检索 信息 ， 还 了 解 了 NTM 的 
变 体 一 -MANN， 它 广泛 用 于 单 样本 学 习 。 在 本 章 ， 我 们 将 学 习 一 个 有 趣 且 非常 常用 的 元 学 习 
算法 一 一 模型 无 关 元 学 习 (model agnostic meta learning，MAML ); 了 解 什么 是 MAML ， 以 及 它 
在 监督 和 强化 学 习 场 景 中 是 如 何 使 用 的 ; 分 析 如 何 从 头 开始 构建 MAML ， 并 学 习 对 抗 元 学 习 
(adversarial meta learning，ADML ); 阐释 如 何 使 用 ADML 来 找到 一 个 稳健 的 模型 参数 ， 以 及 
如 何 为 分 类 任务 实现 ADML; 掌握 元 学 习 的 上 下 文 适 应 ( context adaptation for meta learning， 
CAML )。 


本 章 内 容 包括 : 


口 MAML; 

口 MAML 算法 ; 

口 监督 和 强化 学 习 场景 中 的 MAML; 
口 从 头 构建 MAML; 

口 ADML; 

口 从 头 构建 ADML; 

口 CAML。 





























6.1 MAML 


MAML 是 近年 来 引入 的 、 应 用 最 广泛 的 元 学 习 算法 之 一 ， 在 元 学 习 研 究 方面 取得 了 重大 
突破 。 学 会 学 习 是 元 学 习 的 重点 ,在 元 学 习 中 , 我们 只 从 少量 数据 点 中 学 习 各 种 相关 任务 , 与 此 
同时 元 学 习 器 可 以 生成 快速 的 学 习 器 ， 即 使 在 新 的 训练 样本 较 少 的 相关 任务 中 也 有 较 好 的 泛 化 


MAML 的 基本 思想 是 寻找 一 个 更 好 的 初始 参数 ， 这 样 ， 在 初始 参数 良好 的 情况 下 ， 模 型 可 
以 以 较 少 的 梯度 步骤 ( gradient step ) 快速 学 习 新 任务 。 
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这 是 什么 意思 呢 ? 假设 我 们 正在 使 用 神经 网 络 执行 分 类 任务 。 该 如 何 训练 网 络 呢 ? 从 初始 化 
随机 权重 开始 ,通过 最 小 化 损失 来 训练 网 络 。 怎 样 才能 最 小 化 损失 呢 ? 使 用 梯度 下 降 。 但 如 何 使 
用 梯度 下 降 来 最 小 化 损失 呢 ? 使 用 梯度 下 降 来 寻找 最 优 权 重 , 使 损失 最 小 。 通 过 多 个 梯度 步骤 来 
寻找 最 优 权 重 ， 从 而 达到 收敛 。 


在 MAML 中 ,我 们 试图 通过 学 习 相似 任务 的 分 布 来 找到 这 些 最 优 权重 。 因 此 ， 对 于 一 个 新 
任务 , 不 需要 从 随机 初始 化 的 权重 开始 ; 相反 ,可 以 从 最 优 权重 开始 ， 它 将 采取 更 少 的 梯度 步骤 
来 达到 收敛 ， 并 且 不 需要 较 多 的 数据 点 来 进行 训练 。 


让 我 们 换 种 简单 的 方式 来 理解 MAML。 假设 有 3 个 相关 的 任务 ; TT、 肝 和。 首先 ， 随 
机 初始 化 模型 参数 9。 我 们 在 任务 7 上 训练 网 络 ， 然 后 ， 尝 试 通过 梯度 下 降 使 损失 最 小 化 。 
通过 寻找 最 优 参 数 0' ,使 损失 最 小 化 。 同样, 我 们 也 会 通过 随机 初始 化 模型 参数 9 , 来 训练 也 
和 天 ， 通 过 梯度 下 降 找到 正确 的 参数 组 合 来 最 小 化 损失 。 假设 和 名 分 别 为 任务 志和 的 最 
优 和 参数 。 


如 图 6-1 所 示 , 首先 随机 初始 化 模型 参数 0 ,然后 通过 寻找 最 优 参数 入 、 见 和 如 , 为、 了 D 
和 工分 别 最 小 化 损失 。 
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图 6-1 


然而 , 除了 将 6 初始 化 在 随机 位 置 ( 即 用 随机 值 初始 化 9 ) 以 外 ， 如 果 能 够 在 某 个 位 置 初 始 
化 9 ， 使 得 它 对 3 个 任务 都 通用 ， 那 么 梯度 步骤 与 训练 时 间 就 会 减少 。 这 正 是 MAML 试图 做 到 
的 。MAML 试图 找到 这 个 在 许多 相关 的 任务 中 共同 的 最 优 参数 0 ， 从 而 我 们 可 以 相对 迅速 地 使 
用 少量 数据 点 训练 新 任务 且 无 须 很 多 梯度 步 又 。 
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如 图 6-2 所 示 ， 将 9 移动 到 对 所 有 不 同 的 最 优 9' 值 都 通用 的 一 个 位 置 。 


9 
1 
1 
1 
1 
1 
1 
1 
1 
1 
1 
1 
1 
1 
1 
1 
| 
0 





YY 
Ey 





图 6-2 


因此 ,对 于 新 的 相关 任务 7， 无 须 随机 初始 化 参数 9 。 可 以 从 最 优 2 值 出 发 ， 它 会 使 用 较 少 
的 梯度 步 又 达到 收敛 。 


因此 ， 在 MAML 中 ,我 们 试图 找到 的 这 个 最 优 9 值 ， 它 对 相关 任务 是 通用 的 ， 这 将 帮助 我 
们 从 较 少 的 数据 点 中 学 习 ， 并 减少 训练 时 间 。MAML 与 模型 无 关 ， 这 意味 着 我 们 可 以 将 MAML ED 
应 用 于 任何 可 以 通过 梯度 下 降 训练 的 模型 , 但 它 究 竟 是 如 何 运作 的 ? 如 何 将 模型 参数 移动 到 最 优 
位 置 ? 下 一 节 将 详细 探讨 。 









































6.1.1 MAML 算法 


现在 我 们 已 基本 了 解 了 MAML , 接 下 来 会 详细 地 探讨 它 。 假设 有 一 个 由 06 影响 的 模型 f,0 以 
及 任务 的 分 布 p(T) 。 首 先 ， 用 一 些 随 机 值 初始 化 参数 9 ; 接 下 来 ， 从 任务 的 分 布 中 抽取 一 批 任 
务 ( 即 ~ p(7) ) 假设 抽取 了 5 个 任务 了 = 名, 有 ,7 有 然后， 对 于 每 个 任务 7 抽取 
个 数据 点 并 训练 模型 。 通过 计算 损失 疡 (js) ,利用 梯度 下 降 最 小 化 损失 , 找到 使 损失 最 小 化 的 最 
优 参数 集 : 








2 = 0-QV ok (fo) 
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口 9' 是 任务 的 最 优 参数 ; 

口 0 是 初始 参数 ; 

口 cw 是 超 参 数 ; 

口 VoLi (jo) 是 任务 7T 的 梯度 。 


















































因此 ， 在 之 前 的 梯度 更 新 后 ， 采 样 的 5 个 任务 都 有 最 优 参数 : 


0'={0,0;,0,04,0:} 

















在 抽取 下 一 批 任务 之 前 ， 执 行 元 更 新 或 元 优化 。 也 就 是 说 ， 在 前 面 的 步骤 中 ， 通 过 对 每 个 
任务 7 的 训练 找到 了 最 优 参数 9. 。 现 在 计算 相对 于 这 些 最 优 参数 2 的 梯度 ， 并 通过 在 新 一 批 任 
务 了 上 训练 ， 更 新 随机 初始 化 参数 0 。 这 使 得 随机 初始 化 参数 0 移动 到 最 佳 位 置 ， 在 该 位 置 上 
训练 下 一 批 任务 时 ， 无 须 花 费 很 多 梯度 步 又 。 此 步骤 称 为 元 步骤、 元 更 新 、 元 优化 或 元 训练 ， 
表达 式 如 下 : 




















0=0-PV, 2 Lr (fa) 






































T.~p(7) 

口 0 是 初始 参数 ; 

口 6 是 超 参 数 ; 

DY。， > 万 ( 记 ) 是 每 个 新 任务 五 相对 于 参数 2 的 梯度 。 
Ti~p(7) 


如 果 仔 细 观 察 之 前 的 元 更 新 方程 ， 可 以 发 现 ， 我 们 仅仅 通过 对 每 个 新 任务 7 ( 其 最 优 参数 
为 0 ) 的 梯度 取 平均 数 来 更 新 模型 参数 0 。 





MAML 的 整体 算法 如 图 6-3 所 示 。 算 法 包括 两 个 循环 : 内 循环 和 外 循环 。 在 内 循环 中 ,找到 
每 个 任务 了 的 最 优 参数 2 。 在 外 循环 中 ， 通 过 计算 每 个 新 任务 九 中 相对 于 最 优 参数 的 梯度 ， 
更 新 随机 初始 化 的 模型 参数 0 。 
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任务 的 分 布 p(7) 














使 用 随机 值 初始 化 6 








从 p(7) 中 抽取 一 批 任务 
即 (7,7,,…,7)~p(7) 


| 


对 于 该 批 任务 中 的 每 个 任务 
























外 循环 内 循环 








选择 K 个 样本 ， 计 算 损 失 ， 更 新 
梯度 ， 即 9= 0-aV,L, (从 








通过 计算 相对 于 在 前 一 步骤 
中 取得 的 0 的 梯度 ， 更 新 随 
机 初始 化 的 模型 参数 9， 即 








0=0-pV, 5 Llf,) 


Ti~p(T) 














图 6-3 


我 们 应 该 永远 记 住 ， 不 应 该 使 用 同一 组 任务 也 的 最 优 参数 9. ， 来 在 外 循环 中 更 
新 模型 参数 0 。 


因此 ， 简 而 言 之 , 在 MAML 中 ,我们 抽取 一 批 任务 ， 对 于 这 批 任务 中 的 每 个 任务 7 ,使 用 
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梯度 下 降 最 小 化 损失 ， 并 得 到 最 优 参数 2 。 然 后 ， 在 抽样 另 一 个 批 任务 之 前 ， 通 过 计算 每 个 新 
任务 五 中 相对 于 最 优 参数 g 的 梯度 ， 更 新 随机 初始 化 模型 参数 0 。 





6.1.2 监督 学 习 中 的 MAML 


如 你 所 知 , MAML 擅 于 找到 最 优 初 始 参数 。 下 面 来 看 看 如 何在 监督 学 习 场 景 中 使 用 MAML。 
让 我 们 先 快速 定义 损失 函数 。 根 据 执 行 的 任务 ， 损 失 函 数 可 以 是 任何 函数 。 


如 果 要 进行 回归 ， 那 么 可 以 使 用 均 方 误 差 作 为 损失 函数 : 
Lr(fo)= 之 fC) -lb 


























如 果 是 分 类 任务 ， 则 可 以 使 用 交叉 闹 损失 作为 损失 函数 : 





Li(fo)= 2 ylogfo(x))+(—y,)og(— fo(x))) 


下 面 逐 步 分 析 MAML 在 监督 学 习 中 的 运用 。 


(1) 假设 有 一 个 由 影响 的 模型 f 以 及 任务 的 分 布 p(T) 。 首 先 ， 随 机 初始 化 参数 0 。 
(2) 从 任务 的 分 布 中 抽取 一 批 任务 T( 即 ~ p(T7) )。 假设 抽取 了 3 个 任务 7= {7,T,T}。 
(3) 内 循环 : 对 于 任务 7 中 的 每 个 任务 TT， 抽取 个 数据 点 并 准备 训练 集 与 测试 集 : 


站" 一 {(%1, 1), (ch 0 
D™ 至 人 00 
等 等 | 训练 集 和 测试 集 是 什么 ? 我 们 在 内 循环 中 使 用 训练 集 寻 找 最 优 参数 2 ， 在 外 循环 中 
使 用 测试 集 寻 找 最 优 参数 2 。 测 试 集 并 不 意味 着 我 们 在 检查 模型 的 性 能 ， 它 基本 上 就 像 外 循环 中 
的 训练 集 。 也 可 以 将 测试 集 称 为 元 训练 集 。 
现在 我 们 在 D™ 上 应 用 监督 学 习 算 法 ， 利 用 梯度 下 降 计 算 损失 并 使 损失 最 小 化 ， 得 到 最 优 
参数 0 ,使 得 0'=0-aVoLi(f,) 。 因 此 ， 对 于 每 个 任务 ， 抽 取 磊 个 数据 点 ， 最 小 化 训练 集 D”™" 
上 的 损失 ， 得 到 最 优 参数 0 。 当 抽取 3 个 任务 时 ， 我 们 会 有 3 个 最 优 参数 {0', ,0} 。 
(4) 外 循环 : 我 们 在 测试 集 (元 训练 集 ) 中 执行 元 优化 。 这 里 试图 使 测试 集 Di 中 的 损失 最 
小 化 。 通 过 计算 相对 于 上 一 步 最 优 参数 2' 的 梯度 以 减少 损失 ， 并 使 用 测试 集 (元 训练 集 ) 更 新 
随机 初始 化 参数 0 : 






























































9=0-PY, 了 万 (J) 


Ti~p(7) 


(5) 我 们 对 步骤 (2) 到 步 又 (5) 进 行 次 迭代 。 图 6-4 概括 了 监督 学 习 中 的 MAML。 
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一 批 任务 | 对 于 每 一 个 任务 也 


CD 《000 


















本 人 Eee 
亡 {X71), (022)， ,Xi pi)} 监督 学 习 算 法 


















监督 学 习 算法 


最 小 化 损失 & 计 算 相 
对 于 0 的 梯度 











最 小 化 损失 及 计算 梯度 


获取 最 优 参数 0 














获取 最 优 参数 ， 即 
0'={0,0.,…,0)) 














从 头 构建 MAML 

在 上 一 节 ， 我 们 了 解 了 MAML 的 工作 原理 及 其 是 如 何 获 得 更 好 、 更 稳健 的 模型 参数 0 ， 以 
在 任务 间 泛 化 。 现 在 ， 为 了 更 好 地 理解 MAML ， 我 们 将 从 头 开始 编写 代码 ， 并 考虑 一 个 简单 的 
二 分 类 任务 。 我 们 随机 生成 输入 数据 并 使 用 简单 的 单 层 神经 网 络 训练 它 ， 试 图 找到 最 优 参数 0 。 
下 面 会 一 步 一 步 地 讲解 如 何 做 到 这 一 点 。 

你 也 可 以 在 GitHub 网 站 搜索 Hands-On-Meta-Learning-With-Python， 在 带 有 注释 的 Jupyter 
Notebook 中 查看 相应 代码 。 

首先 ， 导 入 numpy 库 : 


Import numpy as np 
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@ 生成 数据 点 


现在 定义 一 个 名 为 sample_points 的 函数 来 生成 输入 对 (x，y)。 它 以 参数 k 为 输入 ， 表 
示 要 抽取 的 (x，y) 对 的 个 数 : 
def sample points (K) : 
x = np.random.rand (k,50) 


Y' EE: np.random,choicet[l0, 1]; Sit2ze=kK, p=[.5; :5]) .reshapetl[=1,1]) 
return x,y 


上 述 函 数 输出 如 下 : 


x, y = sample _ points(10) 
print [0] 


print y[0] 

[O05373.39 0Q:5,113.621 0.62983308 0.3016117 05914174146 “0,95787598 
O02052022.9. -0 12330T 0.64143809 0.68485511 0.29509309 0.65719205 
0.60906626 0.56890899 0.82614517 0.4408421 0.48018921 0.82674918 
0537076341970556239926， OUT7655734 “QT6489053. .0..79742579 0..57731408 
Qi62065454. 0., 7O0LTLOTL9 0% G1330581 “0 84084355, (0.7967645 0.84148374 
0.04915798 0.31650656 0.64326928 0.20878387 0.29682973 0.34488916 
0.54626642 0.35608015 0.37950982 0.42281464 0.62984657 0.46538511 
0.84092615 0.38056331 0.21669412 0.44118415 0.65537459 0.2136067 
0.72679706 0.22969462] 

[1] 


@ 单 层 神 经 网 络 
为 了 使 结构 简洁 明了 ， 我 们 使 用 单 层 神经 网 络 来 预测 输出 : 


a = np.matmul (X, theta) 
YHat = sigmoid(a) 


使 用 MAML 寻找 最 优 参 数值 9， 以 在 任务 间 泛 化 。 因 此 ， 对 于 新 的 任务 ， 可 以 通过 更 少 的 
梯度 步骤 在 更 短 的 时 间 内 从 较 少 的 数据 点 中 学 习 。 


e@ 使 用 MAML 训练 


现在 ,定义 一 个 名 为 MAML 的 类 , 在 这 个 类 中 实现 MAML 算法 。 在 ”init 方法 中 , 我 们 
会 初始 化 所 有 必要 的 变量 。 然 后 ， 定 义 sigmoiad 激活 函数 。 接 下 来 ， 定义 train 函数 。 


定义 MAML 类 以 实现 MAML 算法 : 
































class MAML (object): 
定义 ”init 方法 并 初始 化 所 有 必要 的 变量 : 


def __ init,_(self): 


6.1 


MAML 
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初始 化 任务 数量 ， 也 就 是 每 批 任务 中 需要 的 任务 数量 : 


self.num tasks = 10 


下 面 是 每 个 任务 中 需要 的 样本 点 的 数量 (外): 
self.num samples = 10 

下 面 是 训练 轮 数 ， 即 近 代 次 数 ; 

self.epochs = 1000 

下 面 是 内 循环 ( 内 部 梯度 更 新 ) 的 超 参数 : 
self.alpha = 0.0001 

下 面 是 外 循环 ( 外 部 梯度 更 新 ) 的 超 参数 ， 即 元 优化 : 
self.beta = 0.0001 


然后 随机 初始 化 模型 参数 0 : 
























































self.theta = np.random.normal (size=50) .reshape(50, 


定义 sigmoid 激活 函数 : 


def sigmoid(self,a): 
return 1.0 / (1 + np.exp(-a)) 


开始 训练 : 


def train(self): 


对 于 每 轮训 练 : 
for e in range(self.epochs): 


self.theta = [] 


对 于 每 批 任务 中 的 任务 i: 


for i in range(self.num tasks): 


抽取 个 数据 点 ， 并 准备 训练 集 D”™ : 





xTrain, YTrain = sample points(self.num samples) 
通过 单 层 神经 网 络 预测 YHat 的 值 : 
a = np.matmul (XTrain, self.theta) 


YHat = self.sigmoid(a) 
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由 于 在 执行 分 类 任务 ， 因 此 使 用 交叉 灶 损 失 作为 损 抢 数 : 


loss = ((np.matmul (-YTrain.T, np.log(YHat)) - np.matmul((1 
-YTrain.T), np.log(1 - YHat)))/self.num samples)[0][0] 


通过 计算 梯度 最 小 化 损失 : 


gradient = np.matmul (XTrain.T, (YHat - YTrain)) / 
self.num samples 


更 新 梯度 ， 得 到 任务 7 的 最 优 参 数 0 ， 使 得 % =0-aVoL (fo) : 
self.theta_.append(self.theta - self.alpha*gradient) 
初始 化 元 梯度 : 


meta_gradient = np.zeros(self.theta.shape) 





抽取 个 数据 点 ， 并 为 元 训练 准备 测试 集 (元 训练 集 ) D™ : 





for i in range(self.num tasks): 
XxTest, YTest = sample points(10) 


通过 单 层 神经 网 络 预测 YPrea 的 值 : 


a = np.matmul (XTest, self.theta_[i]) 
YPred = self.sigmoid(a) 


计算 元 梯度 : 


meta_gradient += np.matmul (XTest.T, (YPred - YTest)) / 
self.num samples 


使 用 元 梯度 更 新 随机 初始 化 的 模型 参数 0 : 
0=0-PVY, 2 Li(fa) 


T~p(7) 





self.theta = self.theta-self.beta*meta _ gradient/self.num tasks 


每 1000 轮训 练 后 打印 一 次 损失 : 


if eg1000==0: 
print "Epoch {}: Loss {}\n".format(e,1loss) 
print 'Updated Model Parameter Theta\n' 
print 'Sampling Next Batch of Tasks \n' 
入 于 让 小生 生生 二 志和 Ni 


MAML 类 的 完整 代码 如 下 : 
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Class MAML (obJject) : 
def _ init _(self): 
# 初 始 化 任务 数量 ， 即 每 批 任务 中 所 需 的 任务 数量 
self.num tasks = 10 
# 样 本 点 的 数量 ， 即 每 个 任务 中 所 需 数 据点 的 数量 (有) 


self.num samples = 10 


# 训 练 轮 数 ， 即 选 代 次 数 
self.epochs = 10000 
# 内 循环 (内 部 梯度 更 新 ) 的 超 参数 
self.alpha = 0.0001 
# 外 循环 (外 部 梯度 更 新 ) 的 超 参 数 ， 即 元 优化 
self.beta = 0.0001 
# 随 机 初始 化 模型 参数 0 
self.theta = np.random.normal (size=50) .reshape(50, 1) 
# 定 义 sigmoid 激活 函数 
def sigmoid(self,a): 
return 1.0 / (1 + np.exp(-a)) 
# 开 始 训练 
def train(self): 
# 对 于 每 轮训 练 
for e in range(self.epochs): 
self.theta_ = [] 
# 对 于 每 批 任务 中 的 任务 i 
for i in range(self.num tasks): 
# 抽 取 天 个 数据 点 ， 并 准备 训练 集 
XTrain，YTrain = Sample_points(self.num_ samples) 
a = np.matmul (XTrain, self.theta) 








YHat = self.sigmoid(a) 


# 由 于 在 执行 分 类 任务 ， 因 此 使 用 交 又 灶 损 失 作 为 损失 涵 数 

loss = ((np.matmul (-YTrain.T, np.log(YHat)) - np.matmul((1 
-YTrain.T), np.log(1 - YHat)))/self.num samples) [0][0] 

# 通 过 计算 梯度 最 小 化 损失 

gradient = np.matmul (XTrain.T, (YHat - YTrain)) / 
self.num samples 





# 更 新 梯度 ， 得 到 任务 万 的 最 优 参数 0; 
self.theta_.append(self.theta - self.alpha*gradient) 
# 初 始 化 元 梯度 
meta_gradient = np.zeros (self.theta.shape) 
for i in range(self.num tasks): 
抽取 天 个 数据 点 ， 并 为 元 训练 准备 测试 集 (元 训练 集 ) 
XTest, YTest = sample points(10) 


预测 y 的 值 
a = np.matmul (XTest, self.theta_[i]) 
YPred = self.sigmoid(a) 
计算 元 梯度 
meta_gradient += np.matmul (XTest.T, (YPred - YTest)) / 
self.num samples 





# 使 用 元 梯度 更 新 随机 初始 化 的 模型 参数 0 
self.theta = self.theta-self.beta*meta gradient/self.num tasks 
If e%1000==0: 
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print "Epoch {}: Loss {}\n".format(e,1loss) 
print 'Updated Model Parameter Theta\n' 
print 'Sampling Next Batch of Tasks \n' 


现在 ,创建 MAML 类 的 实例 : 


model = MAML () 


开始 训练 模型 : 


model .train() 


输出 如 下 ， 可 以 看 到 损失 从 第 0 轮 的 2.71 急剧 下 降 到 第 3000 轮 的 0.5: 


Epoch 0: Loss 2.71883405043 








Updated Model Parameter Theta 
Sampling Next Batch of Tasks 
Epoch 1000: Loss 1.7829716017 
Updated Model Parameter Theta 
Sampling Next Batch of Tasks 
Epoch 2000: Loss 1.29532754055 
Updated Model Parameter Theta 
Sampling Next Batch of Tasks 
Epoch 3000: Loss 0.599713728648 
Updated Model Parameter Theta 


Sampling Next Batch of Tasks 


6.1.3 ”强化 学 习 中 的 MAML 


如 何 将 MAML 应 用 于 强化 学 习 场 景 中 呢 ? 在 强化 学 习 中 ， 我 们 的 目标 是 找到 正确 的 策略 函 
数 , 它 将 告诉 我 们 在 每 种 状态 下 执行 什么 操作 。 但 如 何在 强化 学 习 中 应 用 元 学 习 呢 ?假设 我 们 训 
练 智能 体 (agent ) 来 解决 双 臂 老虎 机 ( two-armed bandit ) 问题 ， 然 而 ， 不 能 用 同一 个 智能 体 来 
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解决 四 臂 老虎 机 (four-armed bandit ) 的 问题 。 为 了 解决 这 个 新 的 四 壁 老 虎 机 问题 ， 我 们 不 得 不 
重新 训练 这 个 智能 体 。 同 样 ， 当 出 现 男 一 个 n 辟 老虎 机 (n-armed bandit ) 时 ， 即 使 它 与 智能 体 已 
经 学 会 解决 的 问题 密切 相关 ， 我 们 还 是 得 不 断 地 从 头 开始 训练 智能 体 ， 以 解决 新 的 问题 。 显 然 ， 
我 们 无 须 这 样 做 。 我 们 可 以 应 用 元 学 习 ， 对 智能 体 进 行 一 组 相关 任务 的 训练 ,使 得 智能 体能 够 利 
用 其 以 前 的 知识 ， 在 最 短 的 时 间 内 学 习 新 的 相关 任务 ， 而 不 必 从 头 开始 训练 。 


在 强化 学 习 中 ， 我 们 将 包含 一 系列 观察 (observation ) 和 行为 (action ) 的 元 组 (tuple ) 称 为 
轨迹 〈trajectory )， 因 此 ， 在 这 些 轨迹 上 训练 模型 来 学 习 最 优 策略 ， 但 应 该 用 哪 种 算法 来 训练 模 
型 呢 ? 对 于 MAML， 可 以 使 用 任何 可 以 通过 梯度 下 降 训练 的 强化 学 习 算 法 。 我 们 使 用 策略 梯度 
( policy gradients ) 来 训练 模型 。 策 略 梯度 通过 直接 将 策略 x 的 参数 zy 参数 化 为 9 来 找到 最 优 策 
略 。 使 用 MAML ， 我 们 试图 找到 这 个 可 在 任务 间 泛 化 的 最 优 参数 0 。 


可 应 选择 什么 损失 函数 呢 ? 在 强化 学 习 中 , 我 们 的 目标 是 通过 最 大 化 正 回报 和 最 小 化 负 回 报 
来 找到 最 优 策略 ， 因 此 将 损失 函数 设 为 最 小 化 负 回报 ， 即 



















































































H 
Lr (fo) = ,~ fo,gT, DR (x ? 0i )] 
t=]1 


上 述 等 式 的 解释 如 下 : R(x,,a,) 表示 在 1 时 刻 对 状态 x 采取 a 行为 的 回报 ，t=1~ 太 表示 时 间 步 
数 ， 其 中 石 为 上 限 ， 即 最 终 时 间 。 


假设 有 一 个 由 6 影响 的 模型 f0 以 及 任务 的 分 布 p(T) 。 首 先 ， 用 一 些 随机 值 初始 化 参数 9 。 
接 下 来 ， 从 任务 的 分 布 中 抽取 一 批 任务 7 ( 即 7 ~ p(7) )。 
然后 ,对 每 个 任务 , 抽取 个 轨迹 ,并 构建 训练 集 与 测试 集 D™",D™* ~7T。 数 据 集 基本 上 


包含 了 轨迹 信息 , 比如 观察 和 行为 。 通 过 执行 梯度 下 降 并 找到 最 优 参数 0' 来 最 小 化 训练 集 D”*" 上 
的 损失 : 























0 = 0—aV Ly (fo) 


现在 ， 在 抽取 下 一 批 任务 前 ， 执 行 一 个 元 更 新 ， 也 就 是 说 ,通过 计算 相对 于 最 优 和 参数 9 的 
损失 梯度 来 最 小 化 测试 集 D” 上 的 损失 ， 以 更 新 我 们 的 随机 初始 化 参数 0 : 


0=0-PVY, 2 Li (fa) 


1.~p(7) 


6.2 ADML 


我 们 已 了 解 了 如 何 使 用 MAML 来 找到 最 优 参数 0 ， 该 参数 可 在 任务 间 泛 化 。 下 面 ， 我 们 将 
学 习 MAML 的 变 体 一 ADML, 它 使 用 干净 样本 ( clean sample ) 和 对 抗 样本 ( adversarial sample ) 
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来 找到 更 好 、 更 稳健 的 初始 模型 参数 0 。 让 我 们 先 了 解 一 下 什么 是 对 抗 样本 ， 它 产生 于 对 抗 攻击 
( adversarial attack )。 假设 有 一 个 图 像 , 对 抗 攻击 以 一 种 肉眼 无 法 察觉 的 方式 对 图 像 进 行 轻微 修改 ， 
这 种 修改 后 的 图 像 称 为 对 抗 图 像 。 当 我 们 把 这 个 对 抗 图 像 输入 模型 时 ， 它 不 能 正确 地 分 类 。 现 在 
有 几 种 用 于 获得 对 抗 样本 的 对 抗 攻击 。 我 们 将 看 到 一 个 常用 的 方法 一 一 快速 梯度 符号 法 ( fast 
gradient sign method，FGSM )。 


6.2.1 FGSM 


假设 我 们 正在 执行 图 像 分 类 任务 。 通 常 ,我们 通过 计算 损失 来 训练 模型 ， 并 试图 通过 计算 相 
对 于 模型 参数 ( 如 权重 ) 的 损失 梯度 , 来 最 小 化 损失 并 更 新 模型 参数 。 为 了 得 到 图 像 的 对 抗 样本 ， 
我 们 计算 相对 于 图 像 输入 像素 ( 而 不 是 模型 参数 ) 的 损失 梯度 。 因 此 ， 图像 的 对 抗 样本 基本 上 就 
是 相对 于 图 像 的 损失 梯度 。 只 需要 一 个 梯度 步 又 ,因此 它 在 计算 上 是 有 效 的 。 在 计算 梯度 后 ， 取 
它 的 sign 值 。 


对 抗 样本 计算 如 下 : 


























Xo 三 XX 二 csign(V ,J (x, Ytrue )) 
参数 解释 如 下 : 


口 xs 是 对 抗 图 像 ; 
口 x 是 输入 图 像 ; 
口 V.J(x,y) 是 相对 于 输入 图 像 的 损失 梯度 。 


如 图 6-5 所 示 ， 有 输入 图 像 x ， 通 过 在 实际 图 像 上 添加 图 像 损失 梯度 的 sign 值 来 得 到 对 抗 
图 像 。 














真实 图 像 (x) sign(V J/(0, x, »)) 对 抗 图 像 (x,,) 
图 6-5 








6.2.2 ADML 


我 们 现在 已 了 解 了 什么 是 对 抗 样本 以 及 如 何 生成 对 抗 样本 , 接 下 来 将 学 习 如 何在 元 学 习 中 使 
用 这 些 对 抗 样本 。 我 们 用 干净 样本 和 对 抗 样本 来 训练 元 学 习 模 型 , 但 为 什么 要 使 用 对 抗 样本 训练 
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模型 呢 ? 因为 它 能 帮助 我 们 找到 稳健 的 模型 参数 0 。 在 算法 的 内 循环 和 外 循环 中 均 使 用 了 干净 样 
本 和 对 抗 样本 , 它们 对 更 新 模型 参数 的 贡献 相同 ADML 利用 干净 样本 和 对 抗 样本 之 间 的 这 种 不 
断 变化 的 相关 性 来 获得 更 好 、 更 稳健 的 模型 初始 化 参数 ,从 而 使 我 们 的 参数 在 对 抗 样本 中 具有 稳 
健 性 ， 并 能 很 好 地 在 新 任务 中 泛 化 。 

假设 有 任务 的 分 布 p(T) ， 从 任务 的 分 布 中 抽取 一 批 任务 了 。 对 于 每 个 任务 ， 抽 取 大 个 数据 
点 ， 并 构建 训练 集 与 测试 集 。 


在 ADML 中 ,我 们 同时 从 干净 样本 与 对 抗 样本 中 抽取 训练 集 与 测试 集 , 即 Di* 、Ds*、DE 
和 Dis o 























现在 在 训练 集 上 计算 损失 ， 通 过 梯度 下 降 最 小 化 损失 ， 并 找到 最 优 参数 0' 。 由 于 有 干净 训 
练 集 和 对 抗 训练 集 , 我 们 对 这 两 个 集合 进行 梯度 下 降 , 分 别 找到 干净 训练 集 和 对 抗 训练 集 的 最 优 
参数 0 和 如， : 





人 = 0 > QV olr (fo, Des ) 
Cu =0- QV oaLr (fo, Dr") 








现在 进行 元 训练 。 通 过 计算 相对 于 上 一 步 中 最 优 参数 0 的 损失 的 梯度 ， 在 测试 集 上 最 小 化 
损失 ， 来 找到 最 优 参数 0 。 

通过 计算 相对 于 最 优 参数 以。 

上 最 小 化 损失 ， 来 更 新 异型 参数 0 : 

A 


Ti~p(7) 


0= 0-—pVo » Li (fa, ,Dis ) 


Ti~p(7) 


和 8 的 损失 的 梯度 , 在 干净 训练 集 DS 和 对 抗 训练 集 Di 











6.2.3 从头 构建 ADML 


在 上 一 节 , 我们 了 解 了 ADML 的 工作 原理 ， 以 及 如 何 同 时 使 用 干净 样本 和 对 抗 样本 训练 模 
型 ， 以 获得 一 个 更 好 、 更 稳健 的 模型 参数 0 ， 用 于 在 任务 间 泛 化 。 这 一 节 我 们 将 通过 从 头 开始 
写 代码 来 更 好 地 理解 ADML， 并 将 考虑 一 个 简单 的 二 分 类 任务 。 我 们 随机 生成 输入 数据 ， 并 
用 单 层 神经 网 络 训练 它 ， 试 图 找到 最 优 参数 0 ( theta )。 下面 我 们 将 逐步 了 解 ADML 究竟 是 如 
何 运 作 的 。 


你 也 可 以 在 GitHub 网 站 搜索 Hands-On-Meta-Learning-With-Python， 在 带 有 注释 的 Jupyter 
Notebook 中 查看 相应 代码 。 











注 
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首先 ， 导 入 所 有 必要 的 库 : 


import tensorflow as tf 
import numpy as np 


1. 生成 数据 点 


现在 定义 一 个 名 为 sample_points 的 函数 来 生成 干净 输入 对 (x，y)。 它 以 k 作为 输入 参 
数 ， 即 抽取 (x，y) 对 的 数量 : 
def sample_points (K) : 
x = np.random.rand (k,50) 


y = np.random.choice([0, 1], size=k, p=[.5, .5]) .reshape([-1,1]) 
return x,y 


上 述 函 数 的 输出 如 下 : 


x, y = sample_ points(10) 
print x[0] 


print y[0] 

[O69922136°0577305793. :0:72227583 0452915%8.0;52828294 0..65308614 
0.77281836 0.59878078 0.71554901 0.51660327 0.65538137 0.25267594 
0.13763862 0.12522582 0.16336571 0.87987815 0.64465771 0.86281232 
0.24503599 0.85324859 0.62247917 0.58166159 0.47871545 0.75025566 
0.87919612 0.49545388 0.31058753 0.66306459 0.34621453 0.56970739 
0.84310111 0.08747573 0.48944231 0.50061581 0.86215915 0.3248433 
0.01350084 0.23846395 0.91015074 0.04968178 0.59098773 0.74692099 
05927463503 ,0 T639537 O069655L62 0% 204L9323 05D8241944 ;0.195703596 
0.76047838 0.93452557] 

[0] 

2. FGSM 


下 面 定 义 一 个 名 为 FGs™ 的 函数 来 生成 对 抗 输入 , 并 使 用 FGSM 来 生成 对 抗 样本 。 我 们 已 看 
到 FGSM 如 何 通 过 计算 相对 于 输入 而 不 是 模型 参数 的 梯度 来 生成 对 抗 样本 对 。 因 此 ， 将 干净 样 
本 对 (x,y) 作 为 输入 ， 并 生成 对 抗 样本 对 (x_adv,y): 


def FGSM(x,y): 























# 输 入 文 与 y 的 占 位 符 
XxX = tf.placeholder (tf.float32) 
Y = tf.placeholder (tf.float32) 


# 使 用 随机 值 初始 化 theta 
theta = tf.Variable(tf.zeros([50,1])) 


# 预 测 y 的 值 
YHat = tf.nn.softmax(tf.matmul (X, theta)) 


# 计 算 损 失 
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loss = tf.redquce_mean(-tf.redquce_sum(Yxtf.1og(YHat) ， 
reduction indices=1)) 


# 现 在 计算 相对 于 输入 文 而 不 是 模型 参数 theta 的 损失 函数 的 梯度 
gradient = ((tft.gradqients(1loss,X) [0])) 

# 计 算 对 抗 输入 

# 即 X_adqdv = x + epsilon = sign ( nabla x J(X, Y)) 
X_adv = XxX + 0.2*tf.signl(gradient) 

X_adv = tf.clip_ by_value(X_adv,-1.0,1.0) 


# 启 动 TensorFlow 会 话 
with tf.Session() as sess: 


sess.run(tf.global_ variables_ initializer()) 


X_adv = sess.run(X adv, feed dict={X: x, Y: y}) 
return X_adv, y 


3. 单 层 神经 网 络 
我 们 使 用 单 层 神经 网 络 预 测 输出 : 


a = np.matmul (Xx, theta) 
YHat = sigmoid(a) 





使 用 ADML 寻找 最 优 参 数值 9， 以 在 任务 间 泛 化 。 因 此 ， 对 于 新 任务 ， 可 以 通过 更 少 的 梯 
度 步 又 在 更 短 的 时 间 内 从 少量 数据 点 中 学 习 。 


4. ADML 





现在 ， 定 义 一 个 名 为 ADML 的 类 ,并 在 其 中 实现 ADML 算法 。 在 _ init 方法 中 , 我们 将 
初始 化 所 有 必要 的 变量 ， 然 后 定义 sigmoig 函数 和 train 函数 。 


我 们 会 逐步 前 述 ， 并 在 最 后 提供 完整 代码 : Eo 





class ADML (object): 

定义 ”init 方法 ， 并 初始 化 必要 的 变量 : 

def:. .TNit. (SELEYS 

初始 化 任务 的 数量 ， 即 每 批 任务 中 我 们 需要 的 任务 数量 : 
self.num tasks = 2 


初始 化 样本 的 数量 ， 即 每 个 任务 中 需要 的 数据 点 数量 (): 


self.num samples = 10 


初始 化 轮 数 ， 即 训练 迭代 次 数 : 


self.epochs = 100 
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内 循环 〈 内 部 梯度 更 新 ) 的 超 参数 如 下 : 
# 干 净 样 本 

self.alphal = 0.0001 

# 对 抗 样本 


self.alpha2 = 0.0001 


外 循环 〈 外 部 梯度 更 新 ， 即 元 优化 ) 的 超 参数 如 下 : 


# 干 净 样本 
self.betal = 0.0001 
# 对 抗 样本 
self.beta2 = 0.0001 


随机 初始 化 模型 参数 theta: 





self.theta = np.random.normal (size=50) .reshape(50, 


定义 sigmoig 激活 函数 ; 


def sigmoid(self,a) : 
return 1.0 / (1 + np.exp(-a)) 


下 面 来 看 如 何 训练 网 络 : 


def train(self): 


对 于 每 轮训 练 : 


for e in range(self.epochs): 








# 干 净 样 本 的 theta' 


self.theta_ clean = [|] 


# 对 抗 样本 的 theta' 
self.theta adv = [] 


对 于 每 批 任务 中 的 任务 i: 


for i in range(self.num tasks): 


1) 


抽取 个 数据 点 ， 并 准备 训练 集 。 首 先 ， 抽 取 干 净 数 据点 ， 即 Di : 








clean; 


XTrain clean, YTrain clean = sample points(self.num samples) 


将 干净 样本 输入 FGSM， 得 到 对 抗 样本 Des ; 


adv; 








XTrain_ adv, YTrain adqv = FGSM(XTrain clean,YTrain clean) 


现在 , 计算 01,，， 并 将 其 存 人 theta_clean。 使 用 单 层 神经 网 络 预测 输出 y: 
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a = np.matmul (XTrain clean, self.theta) 
YHat = self.sigmoid(a) 


由 于 在 执行 分 类 ， 我 们 使 用 交叉 炉 损失 作为 损失 函数 : 


loss = ((np.matmul (-YTrain clean.T, np.log(YHat)) - 
np.matmul((1 -YTrain clean.T), np.log(1 - YHat)))/self.num samples)[0][0] 


过 计算 梯度 来 最 小 化 损失 : 


gradient = np.matmul (XTrain clean.T, (YHat - YTrain clean)) 
/ self.num samples 


更 新 梯度 并 寻找 干净 样本 的 最 优 参数 ss，，bs = 0-QVoLy (fo, Di ): 
Self.theta_clean.appendq(self.theta - self.alphal*gradient) 
现在 计算 对 抗 样本 的 0，， 并 将 其 存 人 theta_adv: 


# 预 测 输 出 y 
a = (np.matmul (XTrain adv, self.theta)) 








YHat = self.sigmoid(a) 


# 计 算 交 又 炳 损失 
loss = ((np.matmul (-YTrain adv.T, np.log(YHat)) - 


np.matmul((1 -YTrain adv.T), np.log(1 - YHat)))/self.num samples) [0][0] 

# 通 过 计算 梯度 最 小 化 损失 

gradient = np.matmul (XTrain adv.T, (YHat - YTrain adv)) / 
self.num samples 


更 新 梯度 并 寻找 干净 样本 的 最 优 参 数 0',，0%,=0-Q@VoLr (fy, Ds ) : 
self.theta_adv.append(self.theta - self.alpha2*gradient) 
为 干净 样本 与 对 抗 样本 初始 化 元 梯度 : 


meta_gradient_ clean = np.zeros(self.theta.shape) 








# 为 对 抗 样本 初始 化 元 梯度 


meta_gradient_adqv 


对 于 每 一 批 任务 中 的 任务 i: 


for i in range(self.num tasks): 
抽取 个 数据 点 ， 并 为 元 训练 准备 干净 测试 集 与 对 抗 测试 集 (元 训练 集 )， 即 DW 和 Ds : 


# 首 先 ， 抽 取 干 净 样 本 点 


XTest_clean，YTest_clean = sample points(self.num samples) 


np.zeros (self.theta. shape) 





Uy 





# 将 干净 样本 输入 FGSM， 得 到 对 抗 样本 


XTest_adv, YTest_adv = sample points(self.num samples) 
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首先 ， 计 算 干净 样本 的 元 梯度 : 
# 预 测 y 的 值 


a = np.matmul (XTest_clean, self.theta clean[il]) 

YPred = self.sigmoid(a) 

# 计 算 元 梯度 

meta_gradient_clean += np.matmul (XTest_clean.T, (YPred - 
YTest_clean)) / self.num samples 


现在 ， 计 算 对 抗 样本 的 元 梯度 : 


# 预 测 y 的 值 

a = (np.matmul (XTest_adv, self.theta adv[i])) 

YPred = self.sigmoid(a) 

# 计 算 元 梯度 

meta_gradient_adyv += np.matmul (XTest_adv.T, (YPred - 
YTest_adv)) / self.num samples 


使 用 干净 样本 与 对 抗 样本 的 元 梯度 ， 更 新 随机 初始 化 的 模型 参数 0 : 


0=0-pPV, > Li (fa, » Daun,) 


Spy 


0=0-— PVo > L (fa, ,Da ) 


T~p(7) 











self.theta = self.theta- 
self.betal*meta gradient_ clean/self.num tasks 


self.theta = self.theta- 
self.beta2*meta gradient_adv/self.num tasks 


每 10 轮 打 印 一 次 损失 : 


if e%10==0: 
print "Epoch {}: Loss {}\n".format(e,1loss) 
print 'Updated Model Parameter Theta\n' 
print 'Sampling Next Batch of Tasks \n' 
信 半 J Na 


完整 的 ADML 类 如 下 : 


class ADML (object): 
def _ init_ _(self): 


# 初 始 化 任务 的 数量 ， 即 每 批 任务 中 我 们 需要 的 任务 数量 
self.num tasks = 2 
# 样 本 的 数量 ， 即 每 个 任务 中 我 们 需要 的 数据 点 数量 (有 


self.num samples = 10 


# 轮 数 ， 即 训练 迭代 次 数 
self.epochs = 100 
# 内 循环 (内 部 梯度 更 新 ) 的 超 参数 
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# 干 净 样本 


selft.alplial = .0001 


# 对 抗 样本 


self.alpha2 = 0.0001 
# 外 循环 (外 部 梯度 更 新 ， 即 元 优化 ) 的 超 参 数 


# 干 净 样本 


self.betal = 0.0001 





# 对 抗 样本 


self.beta2 = 0.0001 


# 随 机 初始 化 模型 参数 theta 
self.theta = np.random.normal (size=50) .reshape(50, 1) 


# 定 义 Sigmoid 
def sigmoid!( 


激活 函数 


self,a): 


return 1.0 / (1 + np.exp(-a)) 
# 下 面 来 看 如 何 训练 网 络 
def train(self) : 

# 对 于 每 轮训 练 

for e in range(self.epochs): 


# 干 净 样 本 的 theta' 


self.theta clean = [] 


# 对 抗 样本 的 theta' 
self.theta adv = [] 
# 对 于 每 批 任务 中 的 任务 i 





for 


i in range(self.num tasks): 


# 抽 取 天 个 数据 点 ， 并 准备 训练 集 


# 首 先 ， 抽 取 干 净 数 据点 


XTrain clean，YTrain clean = sample_points(self.num_ samples) 


# 将 干净 样本 输入 FGSM， 得 到 对 抗 样本 


XxTrain adv, YTrain adv = FGSM(XTrain_ clean,YTrain clean) 


#1 . 首先， 计算 干净 样本 的 theta' ， 并 将 其 存 入 theta_clean 
# 预 测 输 出 y 


a = np.matmul (XTrain clean, self.theta) 
YHat = self.sigmoid(a) 


# 由 于 在 执行 分 类 ， 因 此 使 用 交叉 粒 损 失 作为 损失 函数 
loss = ((np.matmul (-YTrain clean.T, np.log(YHat)) - 


np.matmul((1 -YTrain clean.T), np.log(1 - YHat)))/self.num samples)[0][0] 


# 通 过 计算 梯度 来 最 小 化 损失 


gradient = np.matmul (XTrain clean.T, (YHat - YTrain clean)) 


/ self.num samples 


# 更 新 梯度 并 寻找 干净 样本 的 最 优 参数 theta' 
Self.theta_clean.append(self.theta - self.alphal*gradient) 
#2 . 现在， 计算 对 抗 样本 的 theta'， 并 将 其 存 入 theta_clean 


# 预 测 输 出 y 
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a = (np.matmul (XTrain adv, self.theta)) 


YHat = self.sigmoid(a) 


# 计 算 交 叉 粒 损失 
loss = ((np.matmul (-YTrain adv.T, np.log(YHat)) - 


np.matmul ( (1 -YTrain adv.T), np.log(1 - YHat)))/self.num samples) [0][0] 

# 通 过 计算 梯度 最 小 化 损失 

gradient = np.matmul (XTrain_ adv.T, (YHat - YTrain adv)) / 
self.num samples 


# 更 新 梯度 并 寻找 对 抗 样本 的 最 优 和 参数 theta' 
self.theta _ adv.append(self.theta - self.alpha2*gradient) 
# 为 干净 样本 初始 化 元 梯度 


meta_gradient_clean = np.zZeros (self.theta.shape) 


# 为 对 抗 样本 初始 化 元 梯度 
meta_gradient_adv = np.zeros (self.theta.shape) 
for i in range(self.num tasks): 


# 抽 取 大 个 数据 点 ， 并 为 元 训练 准备 测试 集 


# 首 先 ， 抽 取 干 净 样 本 点 


XTest_clean, YTest_clean = sample points(self.num samples) 


# 将 干净 样本 输入 FGSM， 得 到 对 抗 样本 
xTest_adv, YTest_adv = sample points(self.num samples) 


#1 . 首先， 计算 干净 样本 的 元 梯度 


# 预 测 y 的 值 

a = np.matmul (XTest_clean, self.theta clean[il]) 

YPred = self.sigmoid(a) 

# 计 算 元 梯度 

meta_gradient_clean += np.matmul (XTest_clean.T, (YPred - 
YTest_clean)) / self.num samples 


#2 .现在 ， 计 算 对 抗 样本 的 元 梯度 

# 预 测 y 的 值 

a = (np.matmul (XTest_adv, self.theta adv[i])) 

YPred = self.sigmoid(a) 

# 计 算 元 梯度 

meta_gradient_adv += np.matmul (XTest_adv.T, (YPred 一 
YTest_adv)) / self.num samples 


# 使 用 干净 样本 与 对 抗 样本 的 元 梯度 ， 更 新 随机 初始 化 的 模型 参数 theta 
self.theta = self.theta- 
self.betal*meta gradient_ clean/self.num tasks 


self.theta = self.theta- 
self.beta2*meta gradient_adv/self.num tasks 





if e%10==0: 
print "Epoch {}: Loss {}\n".format(e,1loss) 
print 'Updated Model Parameter Theta\n' 
print 'Sampling Next Batch of Tasks \n' 


rT 
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创建 ADML 类 的 实例 : 
model = ADML() 
然后 ， 开 始 训练 模型 ; 
model .train() 


注意 损失 是 如 何 随 着 训练 轮 数 的 增加 而 降低 的 : 


Epoch 0: Loss 100.25943711532 




















Updated Model]l Parameter Theta 
Sampling Next Batch of Tasks 
Epoch 10: Loss 2.13533264312 
Updated Model Parameter Theta 
Sampling Next Batch of Tasks 
Epoch 20: Loss 0.426824910313 
Updated Model] Parameter Theta 


Sampling Next Batch of Tasks 


6.3 CAML 


我 们 已 看 到 了 MAML 如 何 找到 模型 的 最 优 初始 参数 ， 这 使 得 它 可 以 很 容易 地 适应 梯度 步 又 
较 少 的 新 任务 。 下 面 将 学 习 一 个 有 趣 的 MAML 变 体 一 一 CAML。CAML 的 概念 很 简单 , 和 MAML 
一 样 ， 它 也 试图 找到 更 好 的 初始 参数 。 我 们 了 解 了 MAML 如 何 使 用 两 个 循环 来 进行 学 习 : 在 内 
循环 中 , 它 学 习 特 定 于 任务 的 参数 并 试图 使 用 梯度 下 降 最 小 化 损失 ; 在 外 循环 中 , 它 更 新 模型 参 
数 , 以 减少 几 个 任务 间 的 期 望 损失 , 这 使 得 我 们 可 以 将 更 新 后 的 模型 参数 作为 相关 任务 更 优 的 初 
始 值 。 


在 CAML 中 稍微 调整 了 MAML 算法 。 这 里 没有 使 用 单个 模型 参数 , 而 是 将 模型 参数 一 分 为 二 。 























口 上 下 文 参数 ( context parameter ): 是 在 内 循环 中 更 新 的 特定 于 任务 的 参数 g 。 它 特定 于 具 
体 的 任务 ， 代 表单 个 任务 的 舱 入 。 

口 共享 参数 (shared parameter): 记 为 2， 在 任务 间 共 享 ， 并 在 外 循环 中 更 新 ， 以 找到 最 优 
的 模型 参数 。 
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因此 , 上下文 参数 在 内 循环 中 根据 任务 而 变化 ,而 共享 参数 在 任务 之 间 共 享 并 用 于 外 循环 中 
的 元 训练 。 在 每 个 适应 ( adaption ) 步骤 前 ， 我 们 将 上 下 文 参数 初始 化 为 零 。 





但 把 参数 一 分 为 二 有 什么 用 呢 ? 这 避免 对 特定 任务 的 过 度 拟 合 , 加 速 学 习 , 并 提高 存储 带 使 
用 效率 。 





CAML 算法 
下 面 让 我 们 逐步 了 解 CAML 的 工作 原理 。 
(1) 假 设 有 一 个 由 0 影响 的 模型 了 以 及 任务 的 分 布 p(T) 。 首 先 ， 随 机 初始 化 参数 9 ， 并 初始 
化 上 下 文 参数 (AN 二 0 o 


(2) 现在 ， 从 任务 的 分 布 中 抽取 一 批 任务 ， 即 ~ p(7) 。 
(3) 内 循环 : 对 于 任务 了 中 的 每 个 任务 了 ， 我 们 抽取 个 数据 点 并 准备 训练 集 与 测试 集 : 











六 全 {X15 871), 00] 力 ) (Xr, yr)} 
Di 三 {x1, 1), Xs, 3) (Ki, Pr)} 


现在 ， 将 上 下 文 参数 设 为 0: 
=0 
然后 ， 在 D™ 上 计算 损失 ， 利 用 梯度 下 降 最 小 化 损失 ， 得 到 特定 于 任务 的 参数 力 : 


$= -QV,Lr (f4.0) 











(4) 外 循环 : 现在 ， 我 们 在 测试 集中 执行 元 优化 。 这 里 ， 我 们 试图 将 测试 集 D”* 中 的 损失 最 
小 化 ， 并 找到 最 优 参数 : 
O=O0O-AV， > Lr (fy0) 


Ti~p(7) 


(5) 对 步骤 (2)~(4) 进 行 n 次 迭代 。 


6.4 小 结 


在 本 章 , 我 们 已 学 会 了 如 何 找到 最 优 模型 参数 0 ， 以 在 任务 间 泛 化 ,这 使 得 我 们 可 以 减少 梯 
度 步 又 并 快速 学 习 新 的 相关 任务 。 从 MAML 开始 , 我 们 了 解 了 MAML 如 何 执行 元 优化 来 计算 最 
优 模型 参数 ; 接 下 来 , 掌握 了 对 抗 性 元 学 习 ， 并 使 用 干净 样本 和 对 抗 样本 来 寻找 稳健 的 初始 模型 
参数 ; 之 后 , 学 习 了 CAML, 并 了 解 了 如 何 使 用 两 种 不 同 的 参数 一 一 一 种 用 于 在 任务 内 学 习 , 男 
一 种 用 于 更 新 模型 参数 。 
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在 下 一 章 ， 我 们 将 学 习 Meta-SGD 和 Reptile 算法 ， 该 算法 同样 用 于 寻找 更 好 的 模型 初始 


Ne 


6.5 思考 题 


(1) 什么 是 NTM? 

(2) 为 什么 MAML 是 模型 无 关 的 ? 
(3) 什么 是 对 抗 元 学 习 ? 

(4) 什么 是 FGSM? 

(5) 什么 是 上 下 文 参数 ? 

(6) 什么 是 共享 参数 ? 







































































6.6 延伸 阅读 


口 MAML 论文 : Chelsea Finn、Pieter Abbeel 和 Sergey Levine 的 文章 Model-Agnostic Meta-Learning 
for Fast Adaptation of Deep Networkso。 

口 对 抗 元 学 习 论 文 : Chengxiang Yin、Jian Tang、Zhiyuan Xu 等 人 的 文章 Adversarial Meta- 
Learningo 

口 CAML 论文 : Luisa M Zintgraf、Kyriacos Shiarlis 、Vitaly Kurin 等 人 的 文章 Fast Context 
Adaptation via Meta-Learningo 











Meta-SGD 和 Reptile 

















在 上 一 章 ， 我 们 学 习 了 如 何 使 用 MAML 来 寻找 可 在 任务 间 泛 化 的 最 优 参数 ， 及 其 如 何 通过 
计算 元 梯度 和 执行 元 优化 来 计算 这 个 最 优 参数 ; 了 解 了 对 抗 元 学 习 , 它 通 过 添加 对 抗 样本 来 增强 
MAML , 并 允许 MAML 在 干净 样本 和 对 抗 样本 之 间 进 行 比较 , 以 找到 最 佳 参数 ; 阐释 了 CAML， 
即 元 学 习 的 上 下 文 适 应 。 在 本 章 , 我 们 将 学 习 Meta-SGD 一 一 另 一 种 用 于 快速 学 习 的 元 学 习 算 法 。 
与 MAML 不 同 , Meta-SGD 不 仅 能 找到 最 优 的 参数 , 还 能 找到 最 优 的 学 习 率 和 更 新 方向 。 我 们 将 
了 解 如 何在 监督 和 强化 学 习 场 景 中 使 用 Meta-SGD ， 以 及 如 何 从 头 构建 Meta-SGD; 学 习 Reptile 
算法 ， 它 改进 了 MAML; 阐释 Reptile 与 MAML 的 不 同 之 处 ， 以 及 如 何在 正弦 曲线 回归 任务 中 
使 用 Reptile。 


本 章 内 容 包括 : 


口 Meta-SGD ; 

口 监督 学 习 中 的 Meta-SGD; 

口 强化 学 习 中 的 Meta-SGD; 

口 从 头 构建 Meta-SGD ; 

口 Reptile; 

口 使 用 Reptile 进行 正弦 曲线 回归 。 





























7.1 Meta-SGD 


假设 有 一 个 任务 7。 使 用 由 某 个 参数 0 影响 的 模型 + ,训练 模型 使 损失 最 小 化 。 我 们 使 用 梯 
度 下 降 最 小 化 损失 ， 并 找 出 模型 的 最 优 参 数 9 。 


让 我 们 回忆 一 下 梯度 下 降 的 更 新 规则 : 
0=0-0V,L (fo) 























以 下 是 梯度 下 降 的 核心 元 素 : 
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口 参数 0 
口 学 习 率 w 
口 更 新 方向 


我 们 通常 将 参数 9 设置 为 随机 值 , 并 尝试 在 训练 过 程 中 找到 最 优 值 。 将 学 习 率 & 的 值 设置 为 
小 数值 , 或 者 使 其 随 着 时 间 的 推移 而 衰减 ,同时 依照 梯度 设置 更 新 方向 。 是否 可 以 通过 元 学 习 来 
学 习 所 有 的 这 些 梯 度 下 降 关键 元 素 , 使 得 我 们 可 以 从 少量 数据 点 中 快速 学 习 ? 在 上 一 章 , 我 们 已 
经 看 到 了 MAML 如 何 找到 可 在 任务 间 泛 化 的 最 优 初始 参数 9 。 在 初始 参数 最 优 的 情况 下 ， 我 们 
可 以 采取 更 少 的 梯度 步骤 ,快速 学 习 新 的 任务 。 


那么 , 现在 可 以 学 习 可 在 任务 间 泛 化 的 最 优 的 学 习 率 和 更 新 方向 ， 从 而 实现 更 快 的 收敛 和 训 
练 吗 ? 让 我 们 看 看 如 何 通过 将 Meta-SGD 与 MAML 进行 比较 来 学 习 。 回想 一 下 , 在 MAML 内 循 
环 中 ， 通 过 梯度 下 降 使 损失 最 小 化 ， 从 而 找到 每 个 任务 7 的 最 优 参数 0 : 


2 = 0-QVoLr (fo) 












































对 于 Meta-SGD， 上 述 方程 可 写作 : 


0 =0-QoVoL (fo) 









































这 有 什么 区 别 呢 ? 这 里 w 不 仅仅 是 小 的 标量 值 ， 而 且 是 向 量 。 我 们 将 随机 初始 化 w ,使 其 
具有 与 9 相同 的 形状 。 我 们 将 0 作为 初始 参数 ， 并 将 go。V6Li (fs) 作为 自 适应 项 。 因 此 ， 自 适应 
项 goVoLi (fo) 代表 更 新 方向 ， 其 长 度 为 学 习 率 。 在 goVoLi (fo) 方向 上 (而 不 是 梯度 方向 
VoLr (fo) 上) 更 新 值 ， 学 习 率 暗含 在 自 适应 项 中 。 























此 , 在 Meta-SGD 中 , 不 是 使 用 小 的 标量 值 来 初始 化 学 习 率 a ,而 是 使 用 与 9 形状 相同 的 
随机 值 初 始 化 学 习 率 ， 并 与 2 一 同 接受 学 习 。 抽 样 一 批 任务 ， 对 于 每 个 任务 ， 抽 取 磊 个 数据 点 ， 
并 使 用 梯度 下 降 最 小 化 损失 ， 但 更 新 方程 变 成 下 列 形式 : 


=0-@oVoL (hf) 












































也 就 是 说 ， 我 们 的 更 新 方向 是 自 适应 项 方向 ， 而 不 是 梯度 方向 ， 并 同时 学 习 0 与 @ 。 


现在 ， 在 外 循环 中 ， 我 们 执行 元 优化 一 一 也 就 是 说 ， 计 算 相 对 于 最 优 参数 2 的 损失 梯度 ， 
并 更 新 随机 初始 化 的 模型 参数 0 。 在 Meta-SGD 中 ， 不 单独 更 新 9 ， 而 是 同时 更 新 随机 初始 化 
的 @ 











0=0-PVo p> Lr (fa) 
7.~p(7) 

Qa=Q-PV, 和 > Lr (fo) 
T~p(7) 
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如 你 所 见 ，Meta-SGD 只 是 对 MAML 的 一 个 小 小 的 调整 。 在 MAML 中 ， 我们 随机 初始 化 模 
型 参数 9 , 并 尝试 找到 可 在 任务 间 泛 化 的 最 优 参数 。 在 Meta-SGD 中 , 我 们 不 仅 学 习 模 型 参数 0 ， 
还 学 习 暗 含 于 自 适应 项 中 的 学 习 率 和 更 新 方向 。 





7.1.1 监督 学 习 中 的 Meta-SGD 


现在 ， 我 们 将 看 到 如 何在 监督 学 习 场 景 中 使 用 Meta-SGD。 与 MAML 一 样 ， 我 们 可 以 将 
Meta-SGD 应 用 于 任何 监督 学 习 问 题 ， 无 论 是 回归 还 是 分 类 ， 都 可 以 通过 梯度 下 降 进行 训练 。 首 
先 ， 我们 需要 定义 希望 使 用 的 损失 函数 。 例 如 ,如果 要 分 类 ， 可 以 使 用 交 义 粹 作为 损失 函数 ; 如 
果 要 回归 ,可 以 使 用 均 方 误差 作为 损失 函数 。 可 以 使 用 任何 适合 任务 的 损失 函数 。 让 我 们 一 步 一 


(1) 假设 有 一 个 由 29 影响 的 模型 了 以 及 任务 的 分 布 p(T) 。 首 先 ， 随 机 初始 化 模型 参数 0 ， 并 
将 w 初始 化 为 与 9 相同 的 形状 。 

(2) 从 任务 的 分 布 中 抽取 一 批 任务 T ， 即 T ~ p(7) 。 假 设 抽 取 了 3 个 任务 7=1{7,T,T}。 

(3) 内 循环 : 对 于 任务 7 中 的 每 个 任务 7 ， 抽取 个 数据 点 并 准备 训练 集 与 测试 集 : 


























De = {X15 87), X35 2) Xi, pi )} 
Di™ = {C0 7),%, 17) (1)} 


监督 学 习 算法 ,计算 损失 ， 并 利用 梯度 下 降 最 小 化 损失 ， 得 到 最 优 





现在 ， 对 D”™" 使 用 某 种 
参数 0 : 





0 = lxoYo 广 (Wo) 


对 于 每 一 个 任务 ， 抽 取 磊 个 数据 点 ， 最 小 化 训练 集 De 上 的 损失 ， 并 得 到 最 优 参数 0 。 当 
上 取 3 个 任务 时 ， 我 们 将 有 3 个 最 优 参数 {2,0,2) 。 


(4) 外 循环 : 现在 , 在 测试 集 ( 元 训练 集 ) 中 执行 元 优化 , 即 , 在 这 里 , 我 们 试图 将 测试 集 D** 
中 的 损失 最 小 化 。 我 们 通过 计算 相对 于 上 一 步 最 优 参数 2' 的 梯度 以 减少 损失 。 我 们 不 仅 更 新 9， 
还 更 新 随机 初始 化 的 参数 a ， 如 下 所 示 : 
0=0-PV, >》 Li(fo) 
T~p(7) 


a=a-PV, > Lr (fa) 


Ti~p(7) 

















= 
































(5) 对 步骤 (2)~(4) 进 行 n 次 迭代 。 
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从 头 构建 Meta-SGD 


在 上 一 节 ， 我 们 了 解 了 Meta-SGD 是 如 何 工作 的 ， 以 及 Meta-SGD 如 何 获得 一 个 更 好 、 更 稳 
健 的 模型 参数 9 ， 该 参数 可 在 任务 间 泛 化 ,并 具有 最 佳 的 学 习 率 和 更 新 方向 。 现 在 ， 为 了 更 好 地 
理解 , 我们 将 从 头 开 始 写 代 码 , 并 将 考虑 一 个 简单 的 二 分 类 任务 , 就 像 在 MAML 中 所 做 的 那样 。 
我 们 随机 生成 输入 数据 ， 并 用 一 个 简单 的 单 层 神经 网 络 训 练 它 ,试图 找到 最 优 参 数 9 。 我 们 将 逐 
步 地 学 习 。 


你 也 可 以 在 GitHub 网 站 搜索 Hands-On-Meta-Learning-With-Python， 在 带 有 注释 的 Jupyter 
Notebook 中 查看 相应 代码 。 


首先 ， 导 入 numpy 库 ; 


import numpy as np 


























@ 生成 数据 点 
现在 ， 定 义 一 个 名 为 sample_points 的 函数 来 生成 输入 (x，y) 对 。 它 以 参数 k 为 输入 ， 


表示 抽取 的 (x，y) 对 的 个 数 : 


def sample points (k): 


x, y = sample _ points (10) 

print x[0] 

print y[0] 

[5.01913307e-01 1.01874941e-01 7.16678998e-01 3.90294047e-01 
2.95330904e-01 8.66751993e-01 5.09988127e-01 8.59389493e-01 
5.16202142e-01 7.92016358e-01 8.24237307e-01 7.76739141e-01 
8.57034917e-01 2.75862141e-01 6.44874856e-01 2.75248940e-01 
5.67665047e-01 9.61564994e-01 7.58931873e-01 1.08989614e-02 
7.69325529e-01 4.05955016e-01 1.98799935e-01 9.94134622e-01 
3.07179216e-01 1.34756367e-01 2.92326855e-01 5.00026528e-01 
7.23673231e-01 5.28698231e-01 1.52495715e-01 9.20139339e-01 
1.76127500e-02 2.42244262e-01 7.09515862e-01 7.10358091e-01 
6.47656449e-01 5.15623266e-01 8.77002211e-01 4.18744855e-01 
9.67902538e-01 8.79261670e-01 5.88524781e-01 5.11397703e-02 
7.07513737e-01 4.61998029e-01 8.77306226e-01 5.32049083e-01 
8.07178697e-01 5.01521846e-04] 

[EE 


> 
Y = 
return x,y 





@ 单 层 神经 网 络 
我 们 使 用 单 层 神经 网 络 来 预测 输出 : 


np.random.rand (k,50) 
np.random.choice([0, 


9 





¥ 


size=k, p=[.5, 





.5]) .reshape ([-1,1]) 
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a = np.matmul (X, theta) 
YHat = sigmoid(a) 


使 用 Meta-SGD 来 寻找 可 在 任务 间 泛 化 的 最 优 参数 值 cheta、 学 习 率 和 梯度 更 新 方向 。 因此， 
对 于 新 任务 ， 可 以 通过 更 少 的 梯度 步骤 在 更 短 的 时 间 内 从 少量 数据 点 中 学 习 。 











© Meta-SGD 
现在 , 定义 一 个 名 为 MetaSGD 的 类 , 在 这 个 类 中 实现 Meta-SGD 算 法 ,在 ”init 方法 中 ， 
我 们 将 初始 化 所 有 必要 的 变量 ， 然 后 定义 sigmoiad 激活 函数 与 train 函数 : 
class MetaSGD (object) : 
定义 ”init 方法 ， 并 初始 化 所 有 必要 的 变量 。 
def __ init (self): 
# 初 始 化 任务 的 数量 ， 即 每 批 任务 中 需要 的 任务 数量 
self.num tasks = 2 


# 样 本 的 数量 ， 即 每 个 任务 中 需要 的 数据 点 数量 (有) 


self.num samples = 10 


# 轮 数 ， 即 训练 欠 代 次 数 

self.epochs = 10000 

# 外 循环 (外 部 梯度 更 新 ) 的 超 参 数 ， 即 元 优化 

self.beta = 0.0001 

# 随 机 初始 化 模型 参数 theta 

self.theta = np.random.normal (size=50) .reshape(50, 1) 
# 将 alpha 随机 初始 化 为 与 theta 相同 的 形状 

self.alpha = np.random.normal (size=50) .reshape(50, 1) 


定义 sigmoid 激活 函数 : 


def sigmoid(self,a): 
return 1.0 / (1 + np.exp(-a)) 


现在 ， 开 始 训练 : 


def train(self): 

对 于 每 轮训 练 : 

for e in range(self.epochs): 
self.theta_ = [] 


对 于 每 一 批 任务 中 的 任务 i: 


for i in range(self.num tasks): 


抽取 大 个 数据 点 ， 并 准备 训练 集 : 


xXxTrain, YTrain = sample points(self.num samples) 
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然后 ， 使 用 单 层 神经 网 络 预测 ”的 值 : 
a = np.matmul (XTrain, self.theta) 


YHat = self.sigmoid(a) 


计算 损失 与 梯度 : 
# 由 于 在 执行 分 类 ， 我 们 使 用 交叉 粒 损 失 作为 损失 函数 
loss = ((np.matmul (-YTrain.T, np.log(YHat)) - np.matmul ((1-YTrain.T), 


np.log(1 - YHat)))/self.num samples){[0][0] 

# 通 过 计算 梯度 来 最 小 化 损失 

gradient = np.matmul (XTrain.T, (YHat - YTrain)) / self.num samples 
更 新 梯度 并 寻找 每 个 任务 的 最 优 参数 0  : 

self.theta_.append(self.theta - (np.multiply(self.alpha,gradqient) )) 
初始 化 元 梯度 : 


meta_gradient = np.zeros (self.theta.shape) 





for i in range(self.num tasks): 


抽取 个 数据 点 ， 并 为 元 训练 准备 训练 集 D™ : 


XTest, YTest = sample points(10) 


预测 y 的 值 : 


a = np.matmul (XTest, self.theta_[i]) 
YPred = self.sigmoid(a) 


计算 元 梯度 : 
meta_ gradient += np.matmul (XTest.T, (YPred - YTest)) / self.num samples 


现在 ， 更 新 模型 参数 theta 和 alpha: 


0=0-pY, Y Ls (fr) 


Ti~p(7) 


C=Q-PV, > Li (fa) 


T~p(7) 








self.theta = self.theta-self.beta*meta gradient/self.num tasks 
self.alpha = self.alpha-self.beta*meta gradient/self.num tasks 


每 1000 轮 打印 一 次 损失 : 


If e%1000==0: 
print "Epoch {}: Loss {}\n".format(e,1loss) 
print 'Updated Model Parameter Theta\n' 
print 'Sampling Next Batch of Tasks \n' 
DEEN 4 Na 
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MetaSGD 的 完整 代码 如 下 : 


class MetaSGD (object): 
def __ init _(self): 
# 初 始 化 任务 的 数量 ， 即 每 批 任务 中 需要 的 任务 数量 
self.num tasks = 2 
# 样 本 的 数量 ， 即 每 个 任务 中 需要 的 数据 点 数量 (k) 


self.num samples = 10 


# 轮 数 ， 即 训练 迭代 次 数 
self.epochs = 10000 
# 内 循环 (内 部 梯度 更 新 ) 的 超 参数 
self.alpha = 0.0001 
# 外 循环 (外 部 梯度 更 新 ) 的 超 参 数 
self.beta = 0.0001 
# 随 机 初始 化 模型 参数 theta 
self.theta = np.random.normal (size=50) .reshape(50, 
# 将 alpha 随机 初始 化 为 与 theta 相同 的 形状 
self.alpha = np.random.normal (size=50) .reshape(50, 
# 定 义 Sigmoid 激活 函数 
def sigmoid(self,a): 
return 1.0 / (1 + np.exp(-a)) 
# 现 在 ， 我 们 开始 训练 
def train(self): 
# 对 于 每 轮训 练 
for e in range(self.epochs): 
self.theta_ = [] 
# 对 于 每 一 批 任务 中 的 任务 i 
for i in range(self.num tasks): 
# 抽 取 个 数据 点 ， 并 准备 训练 集 


1) 


1) 


xTrain, YTrain = sample points(self.num samples) 


a = np.matmul (XTrain, self.theta) 
YHat = self.sigmoid(a) 


# 由 于 在 执行 分 类 ， 我 们 使 用 交 又 炳 损失 作为 损失 函数 


loss = ((np.matmul (-YTrain.T, np.log(YHat)) 


-YTrain.T), np.log(1 - YHat)))/self.num samples)[0][0] 
# 通 过 计算 梯度 来 使 损失 最 小 


- np.matmul((1 


gradient = np.matmul (XTrain.T, (YHat - YTrain)) / 


self.num samples 


# 更 新 梯度 并 寻找 每 个 任务 的 最 优 参数 theta' 
self.theta_.append(self.theta - 
(np.multiply (self.alpha,gradient))) 
# 初 始 化 元 梯度 
meta_gradient = np.zeros(self.theta.shape) 
for i in range(self.num tasks): 
# 抽 取 个 数据 点 ， 并 为 元 训练 准备 训练 集 
XTest, YTest = sample points(10) 


# 预 测 y 的 值 
a = np.matmul (XTest, self.theta_[i]) 
YPred = self.sigmoid(a) 


7.1 Meta-SGD 113 





# 计 算 元 梯度 
meta_gradient += np.matmul (XTest.T, (YPred - YTest)) / 
self.num samples 


# 使 用 元 梯度 更 新 随机 初始 化 的 模型 参数 theta 

self.theta = self.theta-self.beta*meta_ gradient/self.num tasks 
# 使 用 元 梯度 更 新 随机 初始 化 的 模型 参数 alpha 

self.alpha = self.alpha-self.beta*meta gradient/self.num tasks 
if eg1000== 





print "Epoch {}: Loss {}\n".format(e,1loss) 
print 'Updated Model Parameter Theta\n' 
print 'Sampling Next Batch of Tasks \n' 
VO Ah Ne Na 





创建 MetasGD 类 的 实例 : 

model = MetaSGD () 

开始 训练 模型 ; 

model .train() 

如 你 所 见 ， 损 失 随 着 训练 轮 数 增加 而 减 小 : 
Epoech 0% LOSS’ 2.22523195333 

Updated Model Parameter Theta 


Sampling Next Batch of Tasks 


Epoch 1000: Loss 1.951785305709 


Updated Model Parameter Theta 





Sampling Next Batch of Tasks 


Epoch 2000: Loss 1.47382270343 





Updated Model]l Parameter Theta 





Sampling Next Batch of Tasks 


Epoch 3000: Loss 1.07296354822 


Updated Model] Parameter Theta 





Sampling Next Batch of Tasks 
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7.1.2 ”强化 学 习 中 的 Meta-SGD 


这 一 节 我 们 将 了 解 如 何在 强化 学 习 场 景 中 使 用 Meta-SGD。Meta-SGD 与 任何 可 以 通过 梯度 
下 降 训练 的 强化 学 习 算 法 兼容 。 


(1) 假设 有 一 个 由 6 影响 的 模型 f 以 及 任务 的 分 布 p(T) 。 首 先 ， 随 机 初始 化 模型 参数 0 ， 并 
将 & 初始 化 为 与 9 相同 的 形状 。 

(2) 现在 , 从 任务 的 分 布 中 抽取 一 批 任务 7, 即 7 ~ p(7) 。 假 设 抽取 了 3 个 任务 , 7={7,D,}。 

(3) 内 循环 : 对 于 任务 了 中 的 每 个 任务 Z ， 抽 取 D"™ 轨迹 ， 计 算 损失 ， 并 利用 梯度 下 降 最 小 
化 损失 ， 得 到 最 优 参数 0 =0-w。Vo 六 (万 ) 。 对 于 每 个 任务 ， 抽 取 轨 迹 ， 最 小 化 损失 ， 并 得 到 最 
优 人 参数 2' 。 当 抽取 3 个 任务 时 ， 我 们 会 有 3 个 最 优 参数 {12,2,2} 。 接 下 来 我 们 将 抽取 男 一 个 轨 
迹 集合 Des 用 于 元 更 新 。 

(4) 外 循环 : 现在 在 D* 轨迹 中 执行 元 优化 。 通 过 计算 相对 于 上 一 步 最 优 和 参数 0' 的 梯度 以 减 
少 损失 。 我 们 不 仅 更 新 9 ， 还 更 新 随机 初始 化 的 参数 wa : 

0= Ne (fa) 


wa=X-Av。 > Lr (fo) 


T~p(7) 











(5) 对 步 又 (2)~(4) 进 行 n 次 迭代 。 


7.2 Reptile 


Reptile 算法 是 OpenAI 对 MAML 算法 的 改进 ， 它 简单 且 易 于 实现 。 我 们 知道 ， 在 MAML 
中 可 以 计算 二 阶 导数 ， 也 就 是 梯度 的 梯度 ， 但 在 计算 上 ， 这 不 是 有 效 的 任务 。 因 此 ，OpenAI 
提出 了 MAML 的 改进 算法 一 一 Reptile。 该 算法 非常 简单 。 对 个 任务 进行 抽样 ， 对 每 个 抽样 任 
务 进行 迭代 次 数 更 少 的 随机 梯度 下 降 (SGD ), 然后 按照 所 有 任务 的 共同 方向 更 新 模型 参数 。 由 
于 对 每 个 任务 执行 迭代 次 数 更 少 的 SGD ， 这 意味 着 我 们 在 计算 损失 的 二 阶 导数 ， 但 与 MAML 
不 同 ， 它 在 计算 上 是 有 效 的 ， 因 为 没有 直接 计算 二 阶 导数 ， 也 没有 展开 计算 图 ， 所 以 它 更 容易 
实现 。 

假设 我 们 从 任务 的 分 布 中 抽取 了 两 个 任务 7 和 元 ,并 随机 初始 化 模型 参数 。 首先 , 对 任务 
执行 n 次 SGD， 得 到 最 优 参数 入 ; 然后 对 任务 蔬 执 行 n 次 SGD， 得 到 最 优 参数 2 。 因 此 ， 我们 
有 两 组 最 优 参数 : 0' = {12 ,0 。 现 在 需要 将 参数 0 移动 到 更 接近 这 两 个 最 优 参数 的 方向 , 如 图 7-1 
所 示 。 
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图 7-1 
但 是 如 何 才能 将 随机 初始 化 的 模型 参数 0 移动 到 更 接近 最 优 参数 9' 的 方向 呢 ? 首先 ,需要 找 





到 随机 初始 化 的 模型 参数 0 与 最 优 参数 集 0 之 间 的 距离 。 用 欧 氏 距离 D 来 表示 这 个 距离 。 一 旦 
找到 9 和 9' 之 间 的 距离 ， 需 要 最 小 化 它们 : 

















MinyB[> D(0.0] 
在 最 小 化 2 和 2 之 间距 离 的 过 程 中 , 随机 初始 化 的 模型 参数 0 , 将 其 向 更 靠近 最 优 参 数 0' 的 


方向 移动 ， 但 如 何 最 小 化 这 个 距离 呢 ? 通 过 计算 距离 的 梯度 V， [> D(O,0 六 ] 来 最 小 化 距离 ， 可 
以 写成 如 下 : 


























站 三 人 一 EVD， [> D(O.0)] 








计算 梯度 之 后 ， 最 终 的 更 新 方程 如 下 : 
0=0+c(0'-0) 


通过 使 用 上 述 方程 更 新 模型 参数 0 ， 最 小 化 了 初始 参数 9 和 最 优 参 数值 9' 之 间 的 距离 。 
此 ， 通 过 执行 n 次 SGD 和 迭代， 找到 每 个 任务 的 最 优 参数 。 一 旦 得 到 了 这 个 最 优 参数 集 ， 我 们 就 
使 用 前 面 的 方程 更 新 模型 参数 0 。 











7.2.1 Reptile 算法 


Reptile 是 一 种 简单 而 有 效 的 算法 。 它 可 以 实现 串 行 〈serial ) 版 本 和 批量 (batch ) 版 本 。 在 
串 行 版 本 中 , 我 们 只 对 任务 的 分 布 中 的 一 个 任务 进行 抽样 ， 而 在 批量 版 本 中 , 我们 对 一 批 任务 进 
行 抽样 ， 并 试图 找到 最 优 参数 。 下 面 来 看 Reptile 的 串 行 版 本 是 如 何 运作 的 ， 其 步 又 如 下 。 


(1) 假设 有 任务 的 分 布 p(T) 。 首 先 ， 随 机 初始 化 参数 0 。 
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(2) 现在 ， 从 任务 中 抽取 一 个 任务 7 ， 即 了 ~ p(7)。 
(3) 内 循环 : 对 于 任务 7 ， 抽 取 个 数据 点 并 准备 数据 集 : 


D= {X15 17), Xp2), 7, Xi Pi)} 


该 数据 集 包含 x 个 特征 和 y 个 标签 。 现 在 , 通过 对 随机 梯度 下 降 执 行 n 次 迭代 来 最 小 化 数据 
集中 的 损失 。 在 任务 7 上 进行 n 次 SGD 迭代 后 ， 得 到 最 优 参数 0 。 
(4) 使 用 在 上 一 步 9=0+ce(9'-0) 中 得 到 的 最 优 参数 0 ， 朝 着 更 靠近 最 优 参数 的 方向 更 新 


随机 初始 化 的 参数 0 。 
(5) 对 步骤 (2)~(4) 进 行 n 次 迭代 。 














7.2.2 ”使 用 Reptile 进行 正弦 曲线 回归 


在 上 一 节 ， 我们 了 解 了 Reptile 的 运作 原理 。 现 在 ， 通 过 从 头 开 始 编写 代码 ， 我 们 将 更 好 地 
理解 Reptile。 假 设 有 一 组 任务 ， 每 个 任务 的 目标 是 根据 给 定 的 输入 ,输出 回归 后 的 正弦 曲线 。 该 
如 何 理解 这 人 句 话 呢 ? 


设 y= 振 幅 xsin(x+ 相 位 )。Reptile 算 法 的 目标 是 学 习 对 给 定 x 的 情况 下 对 y 值 进行 回归 , 振 
幅 值 (amplitude value ) 在 0.1~5.0 范围 内 随机 选取 ， 相 位 值 (phase value ) 在 0~ zz 范围 内 随机 选 
取 。 因 此 ， 对 于 每 个 任务 ， 我 们 只 抽取 10 个 数据 点 并 训练 网 络 ， 也 就 是 说 ， 对 于 每 个 任务 ， 只 
抽样 10 对 (x，y)。 让 我 们 来 看 看 详细 代码 。 


你 也 可 以 在 GitHub 网 站 搜索 Hands-On-Meta-Learning-With-Python， 在 带 有 注释 的 Jupyter 
Notebook 中 查看 相应 代码 。 


首先 ， 导 入 所 有 需要 的 库 : 


import tensorflow as tf 
import numpy as np 


1. 生成 数据 点 


现在 定义 一 个 名 为 sample_points 的 函数 来 生成 (x，y) 对 。 它 以 参数 k 为 输入 ， 表 示 要 
抽取 的 (x，y) 对 的 个 数 : 


def sample points (k): 
num points = 100 
# 振 幅 
amplitude = np.random.uniform(low=0.1, high=5.0) 
# 相 位 
phase = np.random.uniform(low=0, high=np.pi) 









































x = np.linspace(-5, 5, num points) 
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#y = axsin (x+b) 

y = amplitude * np.sin(x + phase) 

# 抽 取 大 个 数据 点 

sample = np.random.choice(np.arange (num points), size=k) 
return (x[sample], ylsamplel]) 


2. 双 层 神经 网 络 


与 MAML 一 样 ，Reptile 与 任何 可 以 通过 梯度 下 降 训练 的 算法 兼容 。 因 此 ， 使 用 简单 的 包含 
64 个 隐藏 单元 的 双 层 神经 网 络 。 

首先 ， 重 置 TensorFlow 网 : 

tf.reset_default_graph () 

初始 化 网 络 参 数 : 


num hidden = 64 
num_classes = 1 
1 
































num_ feature = 


接 下 来 ,为 输入 和 输出 定义 占 位 符 : 


X = tf.placeholder (tf.float32, shape=[None, num_ featurel]) 
Y = tf.placeholder (tf.float32, shape=[None, num classes]) 


随机 初始 化 模型 参数 : 


wl 


tf.Variable(tf.random uniform( [num feature, num hidden])) 
bl = tf.Variable(tf.random uniform( [num hidden])) 


w2 = tf.Variable(tf.random uniform( [num hidden, num classes])) 
b2 = tf.Variable(tf.random uniform( [num classes])) 


然后 ， 执 行 前 僻 操 作 来 预测 输出 Yhat: 


#1 层 
zl1 = tf.matmul (X, wl) + bl 
Ln tankm(zlL) 








# 输 出 层 
z2 = tf.matmul(al, w2) + b2 
Yhat = tf.nn.tanh(z2) 


使 用 均 方 误差 作为 损失 函数 : 
loss_function = tf.reduce mean(tf.square(Yhat - Y)) 


使 用 Adam 优化 器 使 损失 最 小 : 


optimizer = tf.train.AdamOptimizer (le-2) .minimize(loss_function) 
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初始 化 TensorFlow 变量 : 

init = tf.global_ variables_initializer() 

3. Reptile 

下 面 我 们 来 看 看 如 何 用 Reptile 找到 神经 网 络 的 最 优 参数 。 


首先 ， 初 始 化 所 有 需要 的 变量 : 
# 轮 数 ， 即 训练 选 代 次 数 


num_epochs = 100 





# 样 本 数 


num_ samples = 50 


# 任 务 数 


num tasks = 2 


# 执 行 优化 的 次 数 


num_ iterations = 10 


# 小 批量 大 小 
mini_batch = 10 


然后 ， 启 动 TensorFlow 会 话 : 


with tf.Session() as sess: 
sess.run(init) 


对 于 每 轮训 练 : 


for e in range (num epochs): 
# 对 于 一 批 任务 中 的 每 个 任务 


for task in range (num tasks): 











初始 化 模型 参数 : 

GLodLwEt, ‘Glo bl OL wr Glo b= BESSerunt(twl,. Dl, VW2 D2]) 
抽样 x 和 y: 

x_sample, y_sample = sample_points (num samples) 

对 任务 执行 大 次 优化 : 


for k in range(num iterations): 


# 获 取 小 批量 的 XxX 和 y 
for i in range(0, num samples, mini_ batch): 


# 抽 取 小 批量 样本 
x_minibatch = x_sample[i:i+mini_batch] 
y_minibatch = y_sample[i:i+mini_ batch] 
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train = sess.run(optimizer, feed_ dict={X: 
x_minibatch.reshape (mini_batch,1), 
二: 
y_minibatch.reshape (mini_batch,1)}) 


在 几 轮 优化 后 ， 得 到 更 新 后 的 模型 参数 : 


new_wl, new_bl, new_w2, new_b2 = sess.run([wil, bl, w2, b2]) 
执行 元 更 新 : 


epsilon = 0.1 





Updatedq wl = old wl + epsilon * (new_ wl - old_wl1) 
updated_bl = old bl + epsilon * (new_ bl - old_ bl1) 


Updatedq w2 = old w2 + epsilon * (new_w2 - old_w2) 
updated_b2 = old b2 + epsilon * (new_b2 - old_b2) 


使 用 新 参数 更 新 模型 参数 : 


wl.load(updated wl, sess) 
bl.load(updated_ bl, sess) 


w2.load (updated w2, sess) 
b2.load (updated_ b2, sess) 


每 10 轮 打印 一 次 损失 : 


if e%10 == 
loss = sess.run(loss_function, feed dict={X: 
x_sample.reshape (num_ samples,1), Y: y_sample.reshape (num samples,1)}) 


print "Epoch {}: Loss {}\n".format(e,1loss) 
print 'Updated Model Parameter Theta\n' 
print 'Sampling Next Batch of Tasks \n' 
hi 2 ee ch ee Na 


完整 的 代码 如 下 : 


# 启 动 TensorFlow 会 话 
with tf.Session() as sess: 
sess.run (init) 
for e in range (num epochs): 
# 对 于 一 批 任务 中 的 每 个 任务 
for task in range (num tasks): 
# 初 始 化 模型 参数 
old_wl, old_ bl, old w2, old b2 = sess.run([wl, bl, w2, b2,]) 





# 机 样 久 和 y 


x_sample, y_sample = sample_ points (num_ samples) 


# 对 任务 执行 次 优化 
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for k in range(num iterations): 


# 获 取 小 批量 的 XX 和 y 


for i in range(0, 


# 抽 取 小 批量 样本 
x_minibatch 
y_minibatch 


num_samples, 


mini_ batch): 


x_sample[i:i+mini_batch] 
y_sample[i:i+mini_batch] 





train = sess.run(optimizer, feed_ dict={X: 
x_minibatch.reshape (mini_ batch,1), 
Es 
y_minibatch.reshape (mini_ batch,1)}) 
# 在 几 轮 优化 后 ， 得 到 更 新 后 的 模型 参数 
new_wl, new_bl, new_w2, new_b2 = sess.run([w1，bl，w2，hb2]) 
# 执 行 元 更 新 
# 即 theta = theta + epsilon x (theta_star - theta) 
epsilon = 0.1 
updateqd wl = old wl + epsilon * (new_ wl - old wl) 
updateqd_ bl = old bl + epsilon * (new_bl - old bl1) 
updated w2 = old w2 + epsilon * (new_w2 - old_w2) 
updateqd_ b2 = old b2 + epsilon * (new_b2 - old_b2) 
# 使 用 新 参数 更 新 模型 参数 
wl.load (updated _ wl, sess) 
bl.load(updated bl, sess) 
w2.load (updated_w2, sess) 
b2.1load (updated_ b2, sess) 
守 相 “和合 和 二 0 二 三 0 
loss = sess.run(loss_function, feed_ dict={Xx: 


x_sample.reshape (num samples,1), 


Y: y_sample.reshape (num samples,1)}) 


print 
print 
DE 
print 


输出 如 下 : 


Epoch 0: 


"Epoch {}: Loss {}\n".format(e,1oss) 
'Updated Model Parameter Theta\n' 
'Sampling Next Batch of Tasks \n' 


Loss 13.0675544739 


Updated Model Parameter Theta 


Sampling Next Batch of Tasks 
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Epoch 10: Loss 7.3604927063 
Updated Model Parameter Theta 
Sampling Next Batch of Tasks 
Epoch 20: Loss 4.35141277313 
Updated Model Parameter Theta 


Sampling Next Batch of Tasks 


7.3 ”小结 


在 本 章 ， 我 们 学 习 了 Meta-SGD 和 Reptile 算 法 ; 看 到 了 如 何 从 头 构建 Meta-SGD ， 它 在 监督 
学 习 和 强化 学 习 中 的 应 用 ， 及 其 如 何在 学 习 模 型 参数 的 同时 ， 学 习 学 习 率 和 更 新 方向 ; 了 解 了 
Reptile 与 MAML 的 不 同 之 处 ， 以 及 前 者 是 如 何 改进 后 者 的 ; 掌握 了 如 何在 正弦 曲线 回归 任务 中 
使 用 Reptile。 


下 一 童 将 介绍 如 何 使 用 梯度 一 致 作为 元 学 习 中 的 优化 目标 。 




















7.4 思考 题 


(1) Meta-SGD 与 MAML 有 何不 同 ? 

(2) Meta-SGD 是 如 何 找到 最 优 参 数 的 ? 

(3) Meta-SGD 中 学 习 率 的 更 新 方程 是 什么 ? 
(4) Reptile 算法 是 如 何 运 作 的 ? 


(5) Reptile 算法 的 更 新 方程 是 什么 ? 
7.5 延伸 阅读 


口 Meta-SGD: 参见 Zhenguo Li、Fengwei Zhou、Fei Chen 等 人 的 文章 Meta-SGD: Learning to 
Learn Ouickly for Few-Shot Learning。 

口 Reptile: 参见 Alex Nichol、Joshua Achiam 和 John Schulman 的 文章 On First-Order Meta- 
Learning Algorithms。 
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在 上 一 章 , 我 们 学 习 了 Meta-SGD 和 Reptile 算法 ; 了 解 了 如 何 使 用 Meta-SGD 来 寻找 最 优 参 
数 、 最 优 学 习 率 和 梯度 更 新 方向 ; 还 掌握 了 Reptile 算法 是 如 何 运 作 的 ， 以 及 它 在 哪些 方面 比 
MAML 更 有 效 。 在 本 章 ， 我 们 将 学 习 如 何 将 梯度 一 致 作为 元 学 习 的 优化 目标 。 正 如 你 在 MAML 
中 看 到 的 ,我 们 对 任务 间 的 梯度 进行 平均 ， 并 更 新 模型 参数 。 在 梯度 一 致 算法 中 , 我 们 将 使 用 梯 
度 的 加 权 平 均 来 更 新 模型 参数 , 并 学 习 如 何 向 梯度 添加 权重 来 找到 更 好 的 模型 参数 。 我 们 将 详细 
探讨 梯度 一 致 算法 是 如 何 工 作 的 , 该 算法 可 以 用 MAML 和 Reptile 算法 来 实现 ; 还 将 曾 释 如 何在 
MAML 中 从 零 开 始 实现 梯度 协议 。 


本 章 内 容 包括 : 


口 梯度 一 致 ; 

口 权重 计算 ; 

口 梯度 一 致 算法 ; 

口 使 用 MAML 构建 梯度 一 致 算法 。 


8.1 梯度 一 致 ， 一 种 优化 方法 


梯度 一 致 算法 是 最 近 才 被 引入 的 算法 , 很 有 趣 , 它 用 于 增强 元 学 习 算法 。 在 MAML 和 Reptile 
中 ,我 们 试图 找到 更 好 的 、 可 在 多 个 相关 任务 间 泛 化 的 模型 参数 , 这样 就 可 以 用 更 少 的 数据 点 快 
速 学 习 。 回 忆 一 下 前 几 章 所 学 ， 首 先 随机 初始 化 模型 参数 ， 然 后 从 任务 的 分 布 p(7) 中 随机 抽样 
一 批 任务 了 。 对 于 每 个 抽取 的 任务 了 ， 通 过 计算 梯度 最 小 化 损失 ， 得 到 更 新 后 的 参数 9 ， 形 成 
内 循环 : 






























































0'=0-aVoL (f,) 











计算 完 所 有 抽样 任务 的 最 优 参 数 后， 执行 元 优化 ， 即 , 通过 在 一 个 新 的 任务 集合 中 计算 损失 
来 执行 元 优化 。 通 过 计算 相对 于 最 优 参 数 6，( 在 内 循环 中 获得 ) 的 梯度 来 减少 损失 ， 并 更 新 初 
始 模型 参数 0 : 
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0=0-PVY, >》 Lr (fa) 
T~p(7) 

前 一 个 方程 中 到 底 发 生 了 什么 ”如 果 你 仔细 研究 这 个 方程 , 就 会 注意 到 我 们 只 是 对 任务 间 的 
梯度 进行 平均 ， 并 更 新 模型 参数 0 ， 这 意味 着 所 有 任务 在 更 新 模型 参数 方面 贡献 均等 。 

但 这 有 什么 问题 呢 ? 假设 我 们 已 抽取 了 4 个 任务 ， 其 中 3 个 任务 在 一 个 方向 上 有 梯度 更 新 ， 
但 是 另 一 个 任务 在 一 个 完全 不 同 于 其 他 任务 的 方向 上 有 梯度 更 新 。 这 种 不 一 致 会 对 更 新 模型 初始 
参数 产生 严重 影响 ， 这 是 因为 所 有 任务 梯度 对 更 新 模型 参数 贡献 均等 。 如 图 8-1 所 示 ， 从 到 工 
的 所 有 任务 梯度 都 在 同一 个 方向 ， 而 任务 了 的 梯度 与 其 他 任务 的 梯度 方向 完全 不 同 。 
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图 8-1 
那么 , 现在 应 该 做 什么 呢 ? 如 何 判别 任务 的 梯度 一 致 呢 ? 如 果 把 权重 和 梯度 联系 起 来 ,能 够 


体现 不 同 梯度 一 致 的 重要 性 吗 ? 因此, 我 们 通过 添加 与 每 个 梯度 相 乘 的 权重 , 重 写 了 外 部 梯度 更 
新 方程 ， 如 下 : 






































0=0-PwVL (fo) 
如 何 计算 这 些 权重 呢 ? 这 些 权重 与 任务 梯度 的 内 积 以 及 抽样 批 任务 中 所 有 任务 梯度 的 平均 
值 成 正比 。 而 这 意味 着 什么 呢 ? 


这 意味 着 ,如 果 一 个 任务 的 梯度 与 抽样 批 任务 中 所 有 任务 的 平均 梯度 方向 相同 ， 那 么 可 以 增 
加 它 的 权重 ， 这 样 它 对 更 新 模型 参数 的 贡献 就 会 变 大 。 类 似 地 ， 如 果 一 个 任务 的 梯度 与 抽样 批 任 
务 中 所 有 任务 的 平均 梯度 有 很 大 的 不 同 ,那么 可 以 减少 它 的 权重 ,这样 它 对 更 新 模型 参数 的 贡献 eo 
就 会 变 小 。 下 一 节 将 介绍 如 何 精确 地 计算 这 些 权 重 。 
梯度 一 致 算法 既 可 以 应 用 于 MAML, 又 可 以 应 用 于 Reptile 算 法 。 因此 , Reptile 更 新 方程 如 下 : 
0=0+aS Ww,(0'-0) 
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8.1.1 权重 计算 
我 们 已 经 看 到 ， 通 过 将 权重 与 梯度 联系 起 来 ， 可 以 体现 任务 的 梯度 一 致 与 梯度 不 一 致 。 


我 们 知道 , 这 些 权 重 与 任务 梯度 的 内 积 以 及 抽样 批 任务 中 所 有 任务 梯度 的 平均 值 成 正比 。 该 
如 何 计算 这 些 权 重 呢 ? 





























权重 计算 如 下 : 
a 2 大 
假设 抽样 了 一 批 任务 ， 然 后 ， 对 这 批 任务 中 的 每 个 任务 采样 上 个 数据 点 ， 计 算 损 失 ， 更 新 梯 

















度 ， 找 到 每 个 任务 的 最 优 参数 0: 。 同 时 ， 还 在 8 中 存储 了 每 个 任务 的 梯度 更 新 向 量 ， 计 算 方 程 
为 8 =O0O-0。 

因此 ,第 ; 个 任务 的 权重 是 g% 和 8 的 内 积 和 除 以 归 一 化 因子 。 归 一 化 因子 与 8 和 guess 的 内 
积 成 正比 。 

让 我 们 通过 下 面 的 代码 更 好 地 理解 如 何 精 确 地 计算 这 些 权 重 : 


for i in range(num tasks): 
9 = theta - theta_[i] 








# 计 算 归 一 化 因子 


normalization factor = 0 
for i in range (num tasks): 
for j in range (num tasks): 


normalization factor += np.abs (np.dot (g[i].T, g[j])) 


# 计 算 权 重 


WwW = np.zeros (num tasks) 
for i in range (num tasks): 
for j in range(num tasks): 


w[i] += np.dot (g[i].T, g[j]) 


w[i] = w[i] / normalization factor 


8.1.2 算法 
现在 让 我 们 逐步 了 解 梯度 一 致 的 原理 。 


(1) 假设 有 一 个 由 6 影响 的 模型 f 以 及 任务 的 分 布 p(T) 。 首 先 ， 随 机 初始 化 参数 0 。 
(2) 从 任务 的 分 布 中 抽取 一 批 任务 T ， 即 工 ~ p(T7) 。 假 设 我 们 抽取 了 两 个 任务 7 = {7,7T}。 
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(3) 内 循环 : 对 于 任务 7 中 的 每 个 任务 T ,抽取 个 数据 点 并 准备 训练 集 与 测试 集 : 











万 ”= {C65 7), C605), Gees 4)} 
D™ = {(x1, 1), X25 3), Kis 1)} 


在 D”" 上 计算 损失 ， 并 利用 梯度 下 降 最 小 化 损失 ， 得 到 最 优 参数 0 : 





2 =0 -QV ok (fo) 


同时 ， 将 梯度 更 新 向 量 存 储 为 g, = 60 。 





对 于 每 个 任务 ， 抽 取 丰 个 数据 点 ， 最 小 化 训练 集 D”" 上 的 损失 ， 并 得 到 最 优 参数 2 。 当 抽 
取 两 个 任务 时 ， 我 们 将 有 两 个 最 优 参数 0 = {61,0;} ， 以 及 对 应 于 这 两 个 参数 的 梯度 更 新 向 量 
8g={(0-0),(0-0)}。 








(4) 外 循环 : 现在 ， 在 执行 元 优化 之 前 ,计算 权重 : 





2 .7 (81 8)) 
> Ze) 


计算 权重 后 , 现在 将 权重 与 梯度 联系 起 来 以 执行 元 优化 。 通过 计算 相对 于 前 一 步 得 到 的 参数 
的 梯度 ,最 小 化 D” 的 损失 ， 并 将 梯度 与 权重 相 乘 。 





Ji = 























如 果 元 学 习 算 法 是 MAML ， 则 更 新 后 方程 为 


0=0-PO wm,VL (fs) 

















如 果 元 学 习 算 法 是 Reptile， 则 更 新 方程 为 
0=0+adw,(0'-0) 


(5) 对 步骤 (2)~(5) 进 行 n 次 近 代 。 


8.2 使 用 MAML 构建 梯度 一 致 





在 上 一 节 , 我 们 了 解 了 梯度 一 致 算法 的 工作 原理 , 看 到 了 梯度 一 致 如 何 给 梯度 添加 权重 以 体 
现 不 同 梯度 的 重要 性 。 在 这 一 他， 我 们 将 从 头 开始 ， 使 用 NumPy 编码 ， 来 学 习 如 何 将 梯度 一 致 
算法 与 MAML 结合 。 为 了 更 好 地 理解 ， 我 们 将 考虑 一 个 简单 的 二 分 类 任务 。 我 们 将 随机 生成 输 
入 数据 ,用 简单 的 单 层 神经 网 络 训练 它 ， 并 试图 找到 最 优 参数 0。 


下 面 我 们 将 逐步 学 习 具 体 的 做 法 。 
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你 也 可 以 在 GitHub 网 站 搜索 Hands-On-Meta-Learning-With-Python， 在 带 有 注释 的 Jupyter 
Notebook 中 查看 相应 代码 。 


首先 ， 导 入 所 有 需要 的 库 : 


import numpy as np 





8.2.1 生成 数据 点 
下 面 定义 一 个 名 为 sample_points 的 函数 来 生成 输入 (x,y) 对 。 它 以 参数 k 为 输入 , 表示 
抽取 的 (x,y) 对 的 个 数 : 
def sample points (k): 
x = np.random.rand (k,50) 


y = np.random.choice([0, 1], size=k, p=[.5, .5]) .reshape([-1,1]) 
return x,y 


8.2.2 单 层 神经 网 络 
简单 起 见 ， 使 用 单 层 神经 网 络 来 预测 输出 : 


a = np.matmul (X, theta) 
YHat = sigmoid(a) 


因此 , 我 们 使 用 MAML 的 梯度 一 致 算法 来 寻找 可 在 任务 间 泛 化 的 最 优 参数 值 theta。 因此 ， 
对 于 新 任务 ， 可 以 通过 更 少 的 梯度 步骤 在 更 短 的 时 间 内 从 少量 数据 点 中 学 习 。 


























8.2.3 MAML 中 的 梯度 一 致 


下 面 定 义 一 个 名 为 GradientAgreement MAML 的 类 ， 在 这 个 类 中 我 们 将 实现 梯度 一 致 
MAML 算法。 在 ”init 方法 中 ,我 们 会 初始 化 所 有 必要 的 变量 。 然 后 定义 sigmoid 激活 孙 
数 与 train 限 数 。 

让 我 们 一 步 一 步 来 : 

class GradientAgreement MAML (object): 

定义 ”init 方法 ， 并 初始 化 所 有 必要 的 变量 。 

def _ init_ _(self): 
# 初 始 化 任务 的 数量 ， 即 每 批 任务 中 我 们 需要 的 任务 数量 
self.num tasks = 2 
# 样 本 的 数量 ， 即 每 个 任务 中 我 们 需要 的 数据 点 数量 (有 ) 
self.num samples = 10 
# 轮 数 ， 即 训练 迭代 次 数 


self.epochs = 100 
# 内 循环 (内 部 梯度 更 新 ) 的 超 参数 
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self.alpha = 0.0001 
# 外 循环 (外 部 梯度 更 新 ) ， 即 元 更 新 的 超 参数 
self.beta = 0.0001 
# 随 机 初始 化 模型 参数 theta 
self.theta = 
np.random.normal (size=self.pol_ord) .reshape (self.pol_ord, 1) 


定义 sigmoid 激活 函数 ， 用 于 将 x 转化 为 多 项 式 形式 : 


def sigmoid(self,a): 
return 1.0 / (1 + np.exp(-a)) 


现在 定义 train 函数 用 于 训练 : 


def train(self): 


对 于 每 轮训 练 : 


for e in range(self.epochs): 
self.theta = [] 


# 用 于 存储 梯度 更 新 
self.g = [] 


对 于 每 批 任务 中 的 任务 i: 


for i in range(self.num tasks): 


抽取 个 数据 点 ， 并 准备 训练 集 D”™" : 


xXxTrain, YTrain = sample points(self.num samples) 


然后 ， 预 测 YHat 的 值 : 


a = np.matmul (XTrain, self.theta) 








YHat = self.sigmoid(a) 

使 用 梯度 下 降 0 =0- ovVo (js) 计算 损失 并 最 小 化 损失 : 

# 由 于 在 执行 分 类 ， 我 们 使 用 交叉 粒 损 失 作为 损失 函数 

loss = ((np.matmul (-YTrain.T, np.log(YHat)) - np.matmul((1 -YTrain.T), np.log(1 - 
YHat)))/self.num samples)[0] [0] 

# 通 过 计算 梯度 来 最 小 化 损失 


gradient = np.matmul (XTrain.T, (YHat - YTrain)) / self.num samples 
# 更 新 梯度 并 寻找 每 个 任务 的 最 优 参数 theta' 

self.theta_.append(self.theta - self.alpha*gradient) 

在 g 中 存储 梯度 更 新 g, = 0-0: 


self.g.append(self.theta-self.theta_[i]) 
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Dg) 
2 orl2 88))| 


normalization factor = 0 
for i in range(self.num tasks): 
for j in range(self.num tasks): 
normalization factor += np.abs (np.dot (self.g[i].T, 





现在 ,计算 权重 ，w, = 


self.g[j])) 
w = np.zeros(self.num tasks) 
for i in range(self.num tasks): 


for j in range(self.num tasks): 
w[i] += np.dot (self.g[i].T, self.g[j]) 


w[i] = w[i] / normalization_ factor 
初始 化 加 权 元 梯度 : 
weighted_ gradient = np.zeros(self.theta.shape) 
为 每 个 任务 抽取 磊 个 数据 点 ， 并 准备 测试 集 D™ : 


for i in range(self.num tasks): 


























# 抽 取 大 个 数据 点 ， 并 为 元 训练 准备 测试 集 
xTest, YTest = sample points(10) 


预测 y 的 值 : 


a = np.matmul (XTest, self.theta_[i]) 
YPred = self.sigmoid(a) 


计算 元 梯度 : 


meta_gradient = np.matmul (XTest.T, (YPred - YTest)) / 
self.num samples 


将 权重 乘 以 元 梯度 ， 并 更 新 9 的 值 : 
0=0-PYOwVL (fa) 





weighted_gradient += np.sum(w[i]*meta_ gradient) 


self.theta = self.theta- 
self.beta*weighted gradient/self.num tasks 


每 10 轮 打 印 一 次 损失 : 


if eg10==0: 
print "Epoch {}: Loss {}\n".format(e,1loss) 
print 'Updated Model Parameter Theta\n' 
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print 'Sampling Next Batch of Tasks \n' 
hr 0 DT Na 


完整 的 GradientAgreement MAML 类 如 下 : 


class GradientAgreement_ MAML (object): 
def _ init (self): 
# 初 始 化 任务 的 数量 ， 即 每 批 任务 中 我 们 需要 的 任务 数量 
self.num tasks = 2 
# 样 本 的 数量 ， 即 每 个 任务 中 我 们 需要 的 数据 点 数量 (有 ) 


self.num samples = 10 


# 轮 数 ， 即 训练 迭代 次 数 
self.epochs = 100 
# 内 循环 (内 部 梯度 更 新 ) 的 超 参 数 
self.alpha = 0.0001 
# 外 循环 (外 部 梯度 更 新 ) ， 即 元 更 新 的 超 参数 
self.beta = 0.0001 
# 随 机 初始 化 模型 参数 theta 
self.theta = np.random.normal (size=50) .reshape(50, 1) 
# 定 义 sigmoid 激活 函数 
def sigmoid(self,a): 
return 1.0 / (1 + np.exp(-a)) 
# 下 面 定 义 train 函数 用 于 训练 
def train(self): 
# 对 于 每 轮训 练 
for e in range(self.epochs): 
self.theta_ = [] 
# 用 于 存储 梯度 更 新 
self.g = [] 
# 对 于 每 批 任务 中 的 任务 i 
for i in range(self.num tasks): 
# 抽 取 天 个 数据 点 ， 并 准备 训练 集 
XTrain，YTrain = sample points(self.num samples) 
a = np.matmul (XTrain, self.theta) 








YHat = self.sigmoid(a) 


# 由 于 在 执行 分 类 ， 我 们 使 用 交叉 粒 损 失 作为 损失 函数 

loss = ((np.matmul (-YTrain.T, np.log(YHat)) - np.matmul((1 
-YTrain.T), np.log(1 - YHat)))/self.num samples)[0] [0] 

# 通 过 计算 梯度 来 最 小 化 损失 

gradient = np.matmul (XTrain.T, (YHat - YTrain)) / 
self.num samples 


# 更 新 梯度 并 寻找 每 个 任务 的 最 优 参数 theta' 
self.theta_.append(self.theta - self.alpha*gradient) 








# 计 算 梯度 更 新 
self.g.append(self.theta-self.theta_[i]) 
# 现 在 计算 权重 
# 我 们 知道 权重 是 9_i 和 g_j 的 点 积 和 除 以 归 一 化 因子 
normalization_ factor = 0 


for i in range(self.num tasks): 
for j in range(self.num tasks): 
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normalization _ factor += np.abs (np.dot (self.g[i].T, 
self.g[j])) 
w = np.zeros(self.num tasks) 
for i in range(self.num tasks): 


for j in range(self.num tasks): 
w[i] += np.dot (self.g[i].T, self.g[j]) 


w[i] = w[i] / normalization factor 
# 初 始 化 元 梯度 
weighted_gradient = np.zeros(self.theta.shape) 
for i in range(self.num tasks): 
# 抽 取 大 个 数据 点 ， 并 为 元 训练 准备 测试 集 
xTest, YTest = sample points(10) 
# 预 测 y 的 值 
a = np.matmul (XTest, self.theta_[i]) 
YPred = self.sigmoid(a) 
# 计 算 元 梯度 
meta_gradient = np.matmul (XTest.T, (YPred - YTest)) / 
self.num samples 
weighted_gradient += np.sum(w[i]*meta gradient) 


# 使 用 元 梯度 更 新 随机 初始 化 的 模型 参数 theta 
self.theta = self.theta- 
self.beta*weighted gradient/self.num tasks 





if e%10==0: 
print "Epoch {}: Loss {}\n".format(e,1loss) 
print 'Updated Model Parameter Theta\n' 
print 'Sampling Next Batch of Tasks \n' 
Nad lo tt 二 寺 二 总 污 可 过 二 Ny: 


创建 Graqi entAgreement MAML 类 的 实例 : 


model = GradientAgreement_ MAML () 


然后 ， 训 练 模型 : 


model .train() 


可 以 看 到 损失 是 如 何 随 着 训练 轮 数 的 增加 而 降低 的 : 


Epoch 0: Loss 5.9436043239 























Updated Model] Parameter Theta 


Sampling Next Batch of Tasks 


Epoch Ll0: -Loss 3.905350606769 


Updated Model Parameter Theta 


Sampling Next Batch of Tasks 
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Epoch 20: Loss 2.0736155578 
Updated Model]l Parameter Theta 
Sampling Next Batch of Tasks 
Epoch 30: Loss 1.48478751777 
Updated Model Parameter Theta 


Sampling Next Batch of Tasks 


8.3 ”小结 


在 本 章 , 我 们 学 习 了 梯度 一 致 算法 ; 了 解 了 梯度 一 致 算法 如 何 使 用 加 权 梯 度 来 找到 更 好 的 初 
始 模型 参数 0 ; 分 析 了 这 些 权 重 是 如 何 与 任务 梯度 的 内 积 以 及 抽取 的 批 任务 中 所 有 任务 梯度 的 平 
均值 成 正比 的 ; 之 后 探讨 了 如 何 将 梯度 一 致 算法 与 MAML 算法 和 Reptile 算 法 相 结 合 ; 最 后 研究 
了 如 何 使 用 梯度 一 致 算法 在 分 类 任务 中 找到 最 优 参数 0 。 


在 下 一 章 , 我 们 将 了 解 一 些 元 学 习 的 新 进展 , 如 任务 无 关 元 学 习 ( task agnostic meta learning )、 


概念 空间 元 学 习 ( learning to learn in the concept space ) 和 元 模仿 学 习 〈meta imitation learning )。 
































8.4 思考 题 


(1) 什么 是 梯度 一 致 与 梯度 不 一 致 ? 

(2) 梯度 一 致 中 MAML 的 更 新 方程 是 什么 ? 
(3) 梯度 一 致 的 权重 是 什么 ? 

(4) 如 何 计算 权重 ? 

(5) 什么 是 归 一 化 因子 ? 

(6) 何 时 增 减 权重 ? 


























8.5 延伸 阅读 


口 梯度 一 致 算法 的 论文 : Amir Erfan Eshratifar、David Eigen 和 Massoud Pedram 的 文章 
Gradient Aereement as an Optimization Objective for Meta-Learningo。 
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恭喜 你 ! 终于 读 到 了 最 后 一 章 。 我 们 已 经 走 了 很 长 一 段 路 : 从 元 学 习 基 础 开始 ， 遇 到 了 一 些 
单 样本 学 习 算 法 ， 如 挛 生 网 络 、 原 型 网 络 、 匹 配 网 络 和 关系 网 络 ; 然后 了 解 了 NTM 是 如 何 存储 
和 检索 信息 的 ; 之 后 认识 了 一 些 有 趣 的 元 学 习 算法 , 如 MAML 、Reptile 和 Meta-SGD ， 以 及 它们 
是 如 何 找到 最 优 初始 参数 的 。 这 一 章 , 我 们 将 了 解 元 学 习 的 一 些 新 进展 ; 学 习 如 何 使 用 任务 无 关 
元 学 习 ( task agnostic meta learning，TAML ) 来 减少 元 学 习 中 的 任务 偏差 ( bias )， 以 及 如 何在 模 
仿 学 习 系 统 ( imitation leaming system ) 中 使 用 元 学 习 ; 然后 分 析 如 何 使 用 CACTUs 算法 将 MAML 
应 用 到 无 监督 学 习 场 景 中 ; 最 后 学 习 一 种 叫 作 概念 空间 元 学 习 (learning to learn in the concept 
space ) 的 深度 元 学 习 算法 。 


本 章 内 容 包 括 : 

D TAML; 

口 元 模仿 学 习 ; 

口 CACTUS ; 

口 概念 空间 元 学 习 。 


















































9.1 TAML 


我 们 知道 ， 在 元 学 习 中 ,通过 相关 任务 的 分 布 来 训练 模型 ,这样 它 就 可 以 很 容易 地 适应 新 任 
务 ， 且 只 需要 几 个 样本 。 在 前 几 章 ， 我 们 已 了 解 了 MAML 如 何 通 过 计算 元 梯度 和 执行 元 优化 来 
找到 模型 的 最 优 初始 参数 。 但 是 ， 我 们 可 能 会 面临 一 个 问题 : 模型 可 能 会 在 某 些 任务 上 有 偏 
(biased ), 特别 是 在 元 训练 阶段 抽样 的 任务 上 。 因 此 ,模型 会 在 这 些 任务 上 过 度 执行 ( overperform )。 
如 果 出 现 了 这 种 情况 , 它 还 将 阻碍 我 们 寻找 更 好 的 更 新 规则 。 对 于 在 某 些 任务 上 有 偏 的 模型 ,我 
们 也 不 能 更 好 地 在 那些 与 元 训练 任务 有 很 大 差异 的 不 可 见 任务 上 进行 泛 化 。 

为 了 改善 这 种 情况 ， 我 们 需要 使 模型 在 某 些 任务 上 无 偏 或 不 过 度 执行 ， 也 就 是 说 ， 需 要 


使 模型 与 任务 无 关 , 来 防止 任务 偏差 并 获得 更 好 的 泛 化 。 现 在 ,我 们 将 看 到 执行 TAML 的 两 种 
算法 : 
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口 业 最 大 化 ( entropy maximization ) /入 约 简 (entropy reduction ) 
口 不 平等 最 小 化 ( inequality minimization ) 





9.1.1 类 最 大 化 / 炳 约 简 

在 本 节 , 我 们 将 学 习 如 何 通过 最 大 化 和 最 小 化 焙 来 预防 任务 偏差 。 我 们 知道 入 是 一 种 对 随机 
性 的 度量 。 因 此 ,通过 允许 模型 对 预测 标签 ( predictedlabel ) 进行 等 概率 的 随机 猜测 来 最 大 化 精 。 
通过 对 预测 标签 进行 随机 猜测 ， 可 以 预防 任务 偏差 。 

如 何 计算 炳 呢 ? 将 业 记 为 ,我 们 基于 个 预测 标签 的 输出 概率 y，, 从 pi (x,) 中 抽取 x 来 
计算 炳 7 : 


















































N 
Hr (fo) 二 Cx D> ,log(D,) 
n=] 





上 式 中 ， 记 代表 模型 预测 的 标签 。 


因此 ,我们 先 最 大 化 炉 ， 然后 更 新 模型 参数 以 最 小 化 炉 。 那么 , 最 小 化 炉 是 什么 意思 呢 ? 这 
意味 着 我 们 不 会 在 预测 的 标签 上 添加 任何 随机 性 ， 并 且 人 允许 模型 以 高 可 信和 度 预 测 标签 。 


因此 ,我们 的 目标 是 最 大 限度 地 降低 每 个 任务 的 炉 ， 如 下 所 示 : 
Hi (fo) -Hz (fa) 























三 
3 














我 们 将 炉 项 (entropy term ) 与 元 目标 (meta objective ) 相 结合 ， 并 试图 找到 最 优 和 参数 9 ， 
此 元 目标 如 下 : 














0=0-PVaB, rb (fo) +A-Hz (fo) + Hy (fa)l} 
4 是 这 两 项 之 间 的 平衡 系数 。 
算法 
下 面 让 我 们 逐步 了 解 粹 TAML 的 原理 。 


(1) 假设 有 一 个 由 0 影响 的 模型 f 以 及 任务 的 分 布 p(T) 。 首 先 ， 随 机 初始 化 模型 参数 9 。 
(2) 从 任务 的 分 布 中 抽取 一 批 任务 TT， 即 T ~ p(T7) 。 假 设 抽取 了 3 个 任务 ，T = {7,T,T}。 
(3) 内 循环 : 对 于 任务 7 中 的 每 个 任务 T ， 抽 取 大 个 数据 点 并 准备 训练 集 与 测试 集 : 























Wl 


Dan = {381), Xs 3) Kis yi)} 


D's = {X15 71), (X23, 72),77, KX, Vi)} 9 
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然后 ， 在 Du 上 计算 损失 ， 并 利用 梯度 下 降 最 小 化 损失 ， 得 到 最 优 参数 : 


0 =0-QVoL 








因此 ， 对 于 每 个 任务 ,我 们 抽取 个 数据 点 ,准备 训练 集 ， 最 小 化 损失 ， 得 到 最 优 参 数 。 当 
抽取 3 个 任务 时 ， 我们 会 有 3 个 最 优 参 数 {0',0;,0'} 。 

(4) 外 循环 : 执行 元 优化 。 在 这 里 ， 我 们 尝试 最 小 化 D。 上 的 损失 。 通 过 计算 相对 于 最 优 参 
数 9' 的 梯度 来 最 小 化 损失 ， 并 更 新 随机 初始 化 的 参数 9 ， 同 时 , 加 上 和 项 。 因 此 ,最终 的 元 目标 
如 下 : 















































0=0-PV,{B, obs (fo) + HU-Hi FS)+ Hi (fa)]} 





(5) 对 步骤 (2)~(4) 进 行 n 次 迭代 。 


9.1.2 不 平等 最 小 化 


炉 方 法 的 问题 在 于 它 愉 适用 于 分 类 任务 。 因 此 ， 我 们 无 法 将 算法 用 于 回归 或 强化 学 习 任务 。 
为 了 解决 这 个 问题 , 我们 将 看 到 另 一 种 算法 不 平等 最 小 化 TAML。 它 和 迷 方 法 一 样 简单 。 在 
这 种 方法 中 , 我 们 试图 使 不 平等 最 小 化 。 经 济 学 中 有 几 种 衡量 收入 分 配 、 财 富 分 配 不 平等 的 方法 。 
在 元 学 习 场景 中 , 可 以 使 用 这 些 经 济 学 上 的 不 平等 度量 ( inequality measures ) 来 最 小 化 任务 偏差 。 
因此 ， 可 以 通过 最 小 化 一 批 任务 中 所 有 抽样 任务 损失 的 不 平等 来 最 小 化 该 模型 在 任务 上 的 偏差 。 

1. 不 平等 度量 

我 们 会 看 到 一 些 常 用 的 不 平等 度量 。 可 以 将 任务 7 中 的 损失 定义 为 1 ， 抽样 任务 的 平均 损失 
定义 为 7 ， 单 批 任务 中 的 任务 数量 定义 为 M 。 

@ 基尼 系数 

基尼 系数 是 最 广泛 使 用 的 不 平等 度量 之 一 。 它 用 洛 伦 菊 曲线 (Lorenz curve ) 来 测量 分 配 不 
平等 。 洛 伦 茨 曲线 是 一 种 累积 频率 曲线 (cumulative frequency curve )， 它 将 特定 变量 的 分 布 与 代 
表 平 等 的 均匀 分 布 进行 比较 。 基 尼 系 数 的 取 值 范 围 为 0~1， 其 中 0 代表 完全 平等 ，1 代表 完全 不 
平等 。 它 的 值 是 相对 的 绝对 平均 差 (relative absolute mean difference ) 的 一 半 。 


因此 ， 在 元 学 习 场 景 中 ， 基 尼 系 数 的 计算 如 下 : 


M 
272.2 
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e@ 泰 尔 指数 


泰 尔 指数 是 另 一 种 常用 的 不 平等 度量 ， 以 荷兰 计量 经 济 学 家 享 利 . 泰 尔 ( Henri Theil ) 的 名 
字 命 名 。 它 被 称 为 广义 蚁 度量 ( generalized entropy measures )， 是 不 平等 度量 家 族 的 一 个 特例 ， 
并 被 定义 为 最 大 科 (maximum entropy ) 与 观测 炉 ( observed entropy ) 之 差 。 


元 学 习 场 景 中 的 泰 尔 指数 计算 如 下 : 


















































@ 算法 的 方差 
算法 的 方差 定义 如 下 ; 
A 二 Dm -ng 
上 式 中 ，g(D) 表示 1 的 几何 平均 ，。 


可 以 使 用 上 述 任何 不 平等 度量 来 计算 任务 偏差 。 一 旦 使 用 这 种 不 平等 度量 来 计算 任务 偏差 ， 
就 可 以 通过 将 不 平等 度量 插入 元 目标 来 最 小 化 偏差 。 因 此 ， 可 以 重 写 元 目标 如 下 : 


0- PV BLr (fa)+A1(Ls (fa)] 
上 式 中 ，7( (f;) 代表 不 平等 度量 ，4 是 平衡 系数 。 






























































2. 算法 
下 面 让 我 们 逐步 了 解 不 平等 最 小 化 TAML 的 原理 。 


(1) 假设 有 一 个 由 0 影响 的 模型 了 以 及 任务 的 分 布 p(T) 。 首 先 ， 随 机 初始 化 模型 参数 0 。 
(2) 从 任务 的 分 布 中 抽取 一 批 任务 TT ， 即 工 ~ p(T7T) 。 假 设 抽 取 了 3 个 任务 ，7 = {7,T,7T}。 
(3) 内 循环 : 对 于 任务 7 中 的 每 个 任务 T ， 抽 取 大 个 数据 点 并 准备 训练 集 与 测试 集 : 




















Wl 





Dain 至 人 0) p23), 7, Xi, Pi)} 
D's 三 {(x1, V7), 0 


然后 ， 在 De 上 计算 损失 ， 并 利用 梯度 下 降 最 小 化 损失 ， 得 到 最 优 参数 : 








0 =0-QVoL 











因此 ， 对 于 每 个 任务 ， 抽 取 个 数据 点 ， 准 备 训练 集 ， 最 小 化 损失 ， 并 得 到 最 优 参 数 。 当 抽 
取 3 个 任务 时 ,我 们 会 有 3 个 最 优 参数 {0,01,.0') 。 9 
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(4) 外 循环 : 执行 元 优化 。 在 这 里 ， 我 们 尝试 最 小 化 De 上 的 损失 。 通 过 计算 相对 于 最 优 参 
数 2 的 梯度 来 最 小 化 损失 ,并 更 新 随机 初始 化 的 参数 9 ， 同 时 ,加 上 焙 项 。 因 此 ,最 终 的 元 目标 
如 下 : 




















0=0-PVolB ,or)Lr (fo) +AT(L (fo)] 


(5) 对 步骤 (2)~(4) 进 行 n 次 迭代 。 


9.2 元 模仿 学 习 


如 果 想 让 机 器 人 变 成 通才 ， 能 够 执行 各 种 任务 , 那么 它 应 能 快速 学 习 , 但 怎样 才能 让 它 快速 
学 习 呢 ? 我 们 人 类 是 如 何 快速 学 习 的 呢 ? 我 们 能 通过 观察 别人 来 轻松 学 习 新 技能 。 同 样 ， 如 果 让 
机 需 人 通过 观察 我 们 的 行为 来 学 习 , 那么 就 可 以 很 容易 地 让 机 器 人 高 效 地 学 习 复 杂 的 目标 , 而 无 
须 设计 复杂 的 目标 和 奖惩 函数 。 这 种 类 型 的 学 习 ， 即 从 人 类 行为 中 学 习 ， 被 称 为 模仿 学 习 ， 即 机 
器 人 试图 模仿 人 类 的 行为 。 机 器 人 不 一 定 只 从 人 类 的 行为 中 学 习 , 也 可 以 向 执行 任务 的 男 一 个 机 
器 人 学 习 ， 或 者 学 习 人 类 或 机 器 人 执行 任务 的 视频 。 


不 过 模仿 学 习 并 不 像 听 起 来 那么 简单 。 机 器 人 将 需要 大 量 的 时 间 和 演示 〈 demonstration ) 来 
学 习 目 标 并 识别 正确 的 策略 。 因 此 ， 我 们 将 用 先前 的 经 验 作为 演示 ( 训练 数据 ) 来 增强 机 器 人 ， 
这 样 它 就 不 必 完 全 从 头 开始 学 习 每 项 技能。 增加 机 器 人 先前 的 经 验 有 助 于 其 快速 学 习 。 因 此 , 为 
了 学 习 多 种 技能 , 我们 需要 为 每 种 技能 收集 演示 ,也 就 是 说 , 需要 用 特定 于 任务 的 演示 数据 来 增 
强 机 器 人 。 


但 是 , 如 何 才能 让 机 器 人 从 一 次 演示 中 快速 学 习 任务 呢 ? 可 以 使 用 元 学 习 吗 ? 是 否 可 以 重用 
演示 数据 并 从 几 个 相关 的 任务 中 学 习 ， 从 而 快速 地 学 习 新 任务 ? 为 此 , 我 们 将 元 学 习 与 模仿 学 习 
相 结合 ， 形 成 了 元 模仿 学 习 (meta imitation learning，MIL )。 使 用 MIL， 我 们 可 以 利用 来 自 各 种 
其 他 任务 的 演示 数据 ， 以 便 通过 单个 演示 快速 学 习 新 任务 。 因 此 , 我 们 仅 通过 单个 任务 演示 就 可 
以 找到 新 任务 的 正确 策略 。 


对 于 MIL， 可 以 使 用 任何 见 过 的 元 学 习 算法 。 我 们 将 使 用 MAML 作为 元 学 习 算法 ， 它 与 任 
何 可 以 通过 梯度 下 降 训 练 的 算法 兼容 。 我 们 将 使 用 策略 梯度 (policy gradients ) 作为 寻找 正确 策 
略 的 算法 。 在 策略 梯度 中 ， 可 以 直接 用 某 个 参数 2 对 参数 化 的 策略 到 进行 优化 。 


我 们 的 目标 是 学 习 一 种 策略 ,该 策略 可 以 从 新 任务 的 单个 演示 中 快速 适应 该 任务 。 由 此 ,可 
以 消除 对 每 个 任务 的 大 量 演示 数据 的 依赖 。 可 这 里 的 任务 究竟 是 什么 呢 ? 任务 会 包括 轨迹 。 轨 迹 
(tr ) 由 一 系列 来 自 专家 策略 (expert policy ) 的 观察 和 操作 组 成 ， 也 就 是 演示 。 那 什么 是 专家 策 
略 呢 ? 因为 我 们 在 进行 模仿 学 习 ， 并 从 专家 (人 类 动作 ) 那里 学 习 ， 所 以 把 这 个 策略 称 为 专家 策 
略 去 
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tr = fo av050 ~ A 
那 应 该 用 什么 损失 函数 呢 ? 损失 函数 代表 机 器 人 行为 与 专家 行为 之 间 的 差异 。 可 以 用 均 方 误 
差 损 失 作 为 连续 行为 的 损失 也 数 ,交叉 信 作 为 离散 行为 的 损失 函数 。 假设 行为 连续 ， 则 可 以 将 均 
方 误差 损失 表示 为 














m= FE) -or 
tr ~ 了 


假设 有 任务 的 分 布 p(T) 。 对 一 批 任务 进行 抽样 ， 并 从 每 个 任务 工 中 抽取 一 些 演示 数据 ， 通 
过 最 小 化 损失 来 训练 网 络 ， 找 到 最 优 参数 9 。 然 后 ， 计 算 元 梯度 进行 元 优化 ， 找 到 最 优 初 始 参 
数 0 。 下 一 节 将 介绍 这 其 中 的 运作 原理 。 


MIL 算法 
MIL 的 步骤 如 下 。 


(1) 假设 有 一 个 由 0 影响 的 模型 了 以 及 任务 的 分 布 p(T) 。 首 先 ， 随 机 初始 化 模型 参数 9 。 
(2) 从 任务 的 分 布 中 抽取 一 批 任务 T ， 即 7T ~ p(7)。 
(3) 内 循环 : 对 于 被 抽样 任务 中 的 每 个 任务 ， 抽 取 演 示 数 据 : 














tr= {0,,41,*…*,0,,4,} 
然后 ， 计 算 损 失 ， 并 利用 梯度 下 降 最 小 化 损失 ， 得 到 最 优 参 数 : 


0 = 0-QVoL (fo) 








随后 ， 再 抽取 一 份 演 示 数 据 用 于 元 训练 : 





tr = {01, QI, 0 0 


(4) 外 循环 : 执行 元 优化 。 现 在 ， 通 过 元 优化 ， 使 用 tr 更 新 初始 参数 
0=0-pY,。 > Is (fn) 


Ti~p(7) 





(5) 对 步骤 (2)~(4) 进 行 n 次 迭代 。 


9.3 CACTUs 


我 们 已 看 到 了 MAML 如 何 帮 助 找到 最 优 的 初始 模型 参数 ， 以 在 很 多 其 他 相关 任务 间 泛 化 ; 
了 解 了 MAML 在 监督 和 强化 学 习 环 境 中 的 应 用 。 但 如 何 将 MAML 应 用 到 数据 点 无 标记 的 无 监督 9 
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学 习 环 境 中 呢 ? 为 此 , 我 们 引入 了 一 种 新 的 算法 一 一 聚 类 自动 生成 用 于 无 监督 模型 无 关 元 学 习 的 
任务 (CACTUs )， 或 简称 为 仙人 掌 算 法 。 


假设 有 包含 未 标记 示例 的 数据 集 : D = {x, 避 ,加 ,…,%} 。 现 在 , 可 以 用 这 个 数据 集 做 什么 呢 ? 
如 何 将 MAML 应 用 于 此 数据 集 呢 ? 首先 ,使 用 MAML 训练 需要 哪些 东西 ? 我 们 需要 一 个 任务 的 
分 布 , 通过 对 一 批 任务 进行 抽样 ,找到 最 优 的 模型 参数 来 训练 模型 。 任 务 应 该 包含 一 个 特征 及 其 
标签 ， 但 如 何 才能 从 未 标记 的 数据 集中 生成 任务 呢 ? 


下 一 节 将 介绍 如 何 使 用 CACTUs 生成 任务 。 一 旦 生成 了 任务 ， 我 们 就 可 以 很 容易 地 将 它们 
插入 MAML 算法 ， 并 找到 最 优 的 模型 参数 。 



































使 用 CACTUs 生成 任务 


假设 有 包含 未 标记 示例 的 数据 集 : D = fx,x,%,…,x,}。 现 在 需要 为 数据 集 创建 标签 。 该 怎 
么 做 呢 ? 首 先 , 使 用 一 些 钥 入 函数 学 习 数 据 集 中 每 个 数据 点 的 嵌入 。 向 入 函数 可 以 是 任何 特征 提 
取 器 。 假 设 输入 是 图 像 ， 那 么 可 以 使 用 CNN 作为 嵌入 函数 来 提取 图 像 特征 向 量 。 


为 每 个 数据 点 生成 能 和 后, 应 该 如 何 找到 它们 的 标签 呢 ? 一 种 简单 而 朴素 的 方法 是 使 用 一 些 
随机 超 平 面 将 数据 集 D 划分 为 P 部 分 ,然后 可 以 将 数据 集 的 每 个 划分 子 集 视 为 单独 的 类 。 


但 这 个 方法 的 问题 是 ， 由 于 使 用 的 是 随机 超 平面 ,我们 的 类 可 能 包含 完全 不 同 的 嵌入 ,相关 
的 代 入 也 可 能 保存 在 不 同 的 类 中 。 因 此 ， 可 以 使 用 聚 类 算法 ， 而 不 是 使 用 随机 超 平面 来 划分 数据 
集 。 我 们 使 用 k-means 作为 聚 类 算法 来 划分 数据 集 。 对 k-means 聚 类 多 次 迭代 ， 得 到 个 簇 
( cluster )， 或 者 说 划分 (partition )。 

可 以 将 每 个 簇 作为 单独 的 类 来 处 理 。 因 此 ， 接 下 来 该 干什么 呢 ?” 该 如 何 生成 任务 呢 ? 假设 ， 
由 于 聚 类 ,我 们 有 5 个 徐 。 从 这 5 个 簇 中 抽取 个 簇 作为 样本 ; 然后 从 nn 个 徐 中 的 每 个 簇 不 放 回 
抽样 7 个 数据 点 , 记 为 {x,}), ; 之 后 抽取 一 个 包含 个 特定 于 任务 的 独 热 标 签 的 排列 ( permutation ) 
1, ， 用 于 为 n 个 抽取 的 簇 分 配 标 签 。 现 在 有 一 个 数据 点 {x,}, ， 和 一 个 标签 1 。 


最 后 ， 可 以 将 任务 7 定义 为 7 ={(x,,,1,)|x,, e {x,},}。o 



























































9.4 概念 空间 元 学 习 


现在 我 们 来 看 看 如 何在 概念 空间 中 使 用 深度 元 学 习 来 学 习 。 首先, 如 何 进行 元 学 习 呢 ? 抽取 
一 批 相关 任务 ， 在 每 个 任务 中 抽取 个 数据 点 ,并 对 元 学 习 融 进行 训练 。 可 以 将 深度 学 习 和 元 学 
习 结 合 起 来 ， 而 不 是 仅仅 使 用 普通 元 学 习 技术 进行 训练 。 因 此 ， 当 抽取 一 批 相关 任务 ， 并 在 每 个 任 
务 中 抽取 左 个 数据 点 时 , 可 以 使 用 深度 神经 网 络 学 习 每 个 任务 的 个 数据 点 的 表示 (representation )， 
然后 我 们 会 对 这 些 表 示 进 行 元 学 习 。 
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概念 空间 元 学 习 包 括 3 个 部 分 : 


口 概念 生成 器 (concept generator ) 
口 概念 鉴别 器 ( concept discriminator ) 
口 元 学 习 需 (meta learner ) 


概念 生成 器 用 于 提取 数据 集中 每 个 数据 点 的 特征 表示 , 捕捉 其 高 层次 的 概念 ; 概念 鉴别 器 用 
于 对 概念 生成 天生 成 的 概念 进行 识别 和 分 类 ; 而 元 学 习 央 从 概念 生成 需 生 成 的 概念 中 学 习 。 上 述 
3 个 部 分 ， 即 概念 生成 器 、 概 念 鉴别 器 和 元 学 习 器 ， 同 时 进行 学 习 。 这 样 ， 我 们 将 元 学 习 与 深度 
学 习 相 结合 , 改进 了 善 通 的 元 学 习 。 概 念 生成 器 会 随 着 新 的 输入 数据 而 进化 ， 因 此， 可 以 将 此 框 
架 视 为 终生 学 习 系 统 (lifelong learning system )。 

但 概念 空间 元 学 习 究竟 是 如 何 运作 的 呢 ? 请 看 图 9-1。 如 你 所 见 ， 抽 取 一 组 任务 ， 并 将 它们 
输入 概念 生成 器 ， 概 念 生 成 器 学 习 概念 〈 即 能 人 )， 然 后 将 这 些 概念 提供 给 元 学 习 器 ， 元 学 习 器 
学 习 这 些 概念 并 将 损失 发 送 回 概念 生成 器 。 同 时 ， 我 们 还 向 概念 生成 器 提供 了 一 些 外 部 数据 集 ， 
概念 生成 器 学 习 这 些 输入 的 概念 并 将 其 发 送 给 概念 鉴别 器 。 概 念 鉴 别 器 预测 这 些 概 念 的 标签 , 计 
算 损 失 ， 并 将 损失 发 送 回 概念 生成 器 。 由 此 ， 增 强 了 概念 生成 器 谤 化 概念 的 能 力 。 


外 部 数据 集 概念 鉴别 器 
概念 生成 器 
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图 9-1 


但 是 , 为 什么 要 这 样 做 呢 ? 这 是 因为 我 们 在 概念 空间 中 进行 元 学 习 , 而 不 是 在 原始 数据 集 上 
进行 元 学 习 。 如 何 学 习 这 些 概念 呢 ? 这些 概念 由 概念 生成 器 通过 学 习 输 入 的 舱 入 而 生成 。 因 此 ， 
我 们 在 各 种 相关 任务 上 对 概念 生成 器 和 元 学 习 器 进行 训练 ， 同 时 ， 通 过 向 概念 生成 器 提供 外 部 
数据 集 ， 使 概念 鉴别 器 改进 概念 生成 器 ， 从 而 概念 生成 器 能 够 更 好 地 学 习 概念 。 这 种 联合 训练 
(joint training ) 过 程 使 概念 生成 器 能 够 学 习 各 种 概念 ， 并 在 相关 任务 上 表现 得 更 好 。 提 供 外 部 数 9 
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据 集 只 是 为 了 提升 概念 生成 器 的 性 能 ， 当 我 们 提供 一 组 新 的 输入 时 ， 概 念 生成 器 会 不 断 地 学 习 。 
因此 ， 这 是 终身 学 习 系 统 。 





9.4.1 关键 部 分 
现在 让 我 们 详细 看 看 每 个 部 分 。 
1. 概念 生成 器 


我 们 知道 ， 概 念 生成 器 用 于 提取 特征 。 可 以 使 用 由 8, 影响 的 深度 神经 网 络 来 生成 概念 。 例 
如 ， 如 果 输 入 是 图 像 ， 概 念 生成 器 可 以 是 CNN。 


2. 概念 鉴别 器 


概念 鉴别 器 基 本 上 是 一 个 分 类 需 , 用 于 预测 概念 生成 名 生 成 的 概念 的 标签 。 因 此 , 它 可 以 是 
任何 由 6, 影响 的 监督 学 习 算法 ， 如 SVM 和 决策 树 。 
































3. 元 学 习 器 


元 学 习 器 可 以 是 任何 由 影响 的 元 学 习 算法 ， 比 如 MAML 、Meta-SGD 或 Reptile。 

















9.4.2 ”损失 函数 
下 面 使 用 两 种 损失 函数 : 





口 概念 鉴别 损失 ( concept discrimination loss ) 
口 元 学 习 损失 

1. 概念 鉴别 损失 

我 们 从 数据 集 卫 中 抽取 一 些 数据 点 (x,y) ， 将 它们 输入 概念 生成 器 ， 概 念 生成 名 学 习 这 些 概 
念 并 将 它们 发 送 给 概念 鉴别 器 ,概念 鉴别 器 尝试 为 这 些 概念 预测 类 。 因 此 ,概念 鉴别 损失 代表 概 
念 鉴 别 带 对 类 的 预测 能 力 ， 可 以 表示 为 














Ly,, (Ob ? 0,) 


根据 任务 , 我 们 的 损失 函数 可 以 是 任何 损失 函数 。 例 如 ， 如 果 我 们 执行 分 类 任务 , 它 可 能 是 
交叉 业 损 失 。 


2. 元 学 习 损 失 


从 任务 的 分 布 中 抽取 一 些 任务 样本 , 通过 概念 生成 器 学 习 它 们 的 概念 , 对 这 些 概念 进行 元 
习 ， 然 后 计算 元 学 习 损 失 : 

















性 
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六 (Oo) 
元 学 习 损失 取决 于 使 用 的 元 学 习 器 ， 如 MAML 或 Reptile。 
最 终 损 失 函 数 是 概念 鉴别 损失 和 元 学 习 损 失 的 结合 : 


损失 = Lr (Ou,06)+ AL(,) (Ob,06) 


在 上 式 中 ， 和 4 是 元 学 习 损失 和 概念 鉴别 损失 的 平衡 超 参数 。 因 此 , 我 们 的 目标 是 找到 最 小 化 


这 种 损失 的 最 优 参数 : 











miny ,0 ,0 Worm oo (Oy ,06), Ly,) (0b,0,)] 





通过 计算 梯度 使 损失 最 小 化 ， 并 更 新 模型 参数 : 
(Op,0y,06)= (6p,0%,06) -PVIT (Lr (Oy ,06), nccj] 








9.4.3 算法 
这 一 节 我 们 将 逐步 了 解 算法 。 


(1) 假设 有 任务 的 分 布 p(7) 。 首先 , 随机 初始 化 模型 参数 一 一 概念 生成 训 9, 、 元 学 习 器 0v 、 


概念 鉴别 絮 0, 。 


(2) 从 任务 的 分 布 中 抽取 一 批 任务 样本 ， 通 过 概念 生成 器 学 习 它 们 的 概念 ， 对 这 些 概 念 进行 








元 学 习 ， 然 后 计算 元 学 习 损失 : 


Lr (Ou,06) 








(3) 从 数据 集 加 中 抽取 一 些 数据 点 ( 志 力 ， 将 它们 输入 概念 生成 器 ,概念 生 成 器 学 习 这 些 概 念 











并 将 它们 发 送 给 概念 鉴别 器 ， 概 念 鉴别 器 尝试 为 这 些 概念 预测 类 ， 并 计算 概念 分 类 损失 : 
Ly) (0, » 0,) 


(4) 将 这 两 种 损失 结合 起 来 ， 尝 试 使 用 SGD 将 损失 最 小 化 ， 并 获得 更 新 的 模型 参数 : 





(0,, 0% ,06) (0, ,0% ,06) -BVLJ7(L; (Oy,06), Lo.» (0,,06)] 


(5) 对 步骤 (2)~(4) 进 行 n 次 迭代 。 














再 次 祝贺 你 学 习 了 所 有 重要 且 流 行 的 元 学 习 算 法 。 元 学 习 是 人 工 智能 中 一 个 有 趣 且 很 有 前 途 
的 领域 ， 它 将 使 我 们 更 接近 AGI。 现 在 你 已 读 完了 这 本 书 ， 可 以 开始 探索 元 学 习 的 各 种 新 进展 ， 








并 开始 尝试 各 种 项 目 了 。Learn and meta learn! 
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9.5 “小 结 


在 本 章 ， 我 们 学 习 了 TAML 用 于 减少 任务 偏差 ， 看 到 了 两 种 方法 一 一 基于 焙 的 TAML 和 基 
于 不 平等 的 TAML; 接 下 来 探讨 了 元 模仿 学 习 ， 它 将 元 学 习 与 模仿 学 习 相 结合 ; 然后 分 析 了 元 学 
习 如 何 帮 助 模仿 学 习 从 更 少 的 模仿 中 学 习 ， 还 了 解 了 如 何在 使 用 CACTUs 的 无 监督 学 习 中 应 用 
模型 无 关 元 学 习 ; 之 后 探讨 了 一 种 深度 元 学 习 算 法 一 一 概念 空间 学 习 ; 最 后 看 到 了 如 何 通过 深度 
学 习 来 促进 元 学 习 。 


元 学 习 是 人 工 智能 领域 中 最 有 趣 的 分 支 之 一 。 现在 你 已 了 解 了 各 种 元 学 习 算法 , 可 以 开始 构 
建 元 学 习 模型 ， 这 些 模型 可 以 在 各 种 任务 间 泛 化 ， 并 有 助 于 元 学 习 研 究 。 





















































9.6 思考 题 


(1) 有 哪 几 种 不 同 的 不 平等 度量 ? 
(2) 什么 是 泰 尔 指数 ? 

(3) 什么 是 模仿 学 习 ? 

(4) 什么 是 概念 生成 器 ? 

(5) 什么 是 元 学 习 损 失 ? 








9.7 延伸 阅读 


口 TAML: 参见 Muhammad Abdullah Jamal .Guo-Jun Qi 和 Mubarak Shah 的 文章 Task-Agnostic 
Meta-Learning for Few-shot Learningo 

口 元 模仿 学 习 : 参见 Chelsea Finn 、Tianhe Yu、Tianhao Zhang 等 人 的 文章 One-Shot Visual 
Tmitation Learning via Meta-Learning。 

口 CACTUs: 参见 Kyle Hsu、Sergey Levine 和 Chelsea Finn 的 文章 Unsupervised Learning via 
Meta-Learningo 

口 概念 空间 元 学 习 : 参见 Fengwei Zhou、Bin Wu 和 Zhenguo Li 的 文章 Deep Meta-Learning: 


Learning to Learn in the Concept paceo。 








日 万 Ar 
思考 题 答 案 


第 1 章 元 学 习 简介 


(1) 元 学 习 能 够 生成 通用 的 人 工 智能 模型 ， 来 学 习 执 行 各 种 任务 。 我 们 可 以 用 很 少 的 数据 点 
来 训练 元 学 习 模 型 去 完成 各 种 相关 的 任务 ， 因 此 新 任务 可 以 利用 之 前 从 相关 任务 中 获得 的 知识 ， 
而 无 须 从 零 开 始 训练 。 

(2) 少 样本 学 习 或 K 样 本 学 习 指 的 是 利用 较 少 的 数据 点 进行 学 习 , 其 中 表示 数据 集 各 个 类 别 
中 数据 点 的 数量 。 

(3) 为 了 使 模型 从 少量 的 数据 点 中 学 习 ， 我 们 将 用 同样 的 方法 训练 它们 。 因 此 ， 当 有 一 个 数 
据 集 忆 时 ， 我 们 从 出 现在 的 数据 集中 的 每 个 类 别 中 挑选 儿 个 数据 点 ， 称 之 为 支撑 集 。 

(4) 我 们 从 每 个 类 别 中 挑选 一 些 不 同 于 支撑 集 的 数据 点 ， 称 之 为 查询 集 。 

(5) 在 基于 度量 的 元 学 习 场 景 中 ， 我 们 将 学 习 合适 的 度量 空间 。 假 设 我 们 想 找 出 两 个 图 像 之 
间 的 相似 性 。 在 基于 度量 的 场景 中 , 我们 使 用 一 个 简单 的 神经 网 络 从 两 幅 图 像 中 提取 特征 ,并 通 
过 计算 两 幅 图 像 特 征 之 间 的 距离 找到 相似 性 。 

(6) 我 们 以 一 种 阶段 式 的 方式 训练 模型 ， 即 , 在 每 个 阶段 中 ,从 数据 集 DD 中 抽取 少量 数据 点 ， 
准备 支撑 集 并 在 文 撑 集 上 学 习 。 因 此 ， 在 多 个 阶段 后 ， 模 型 将 学 会 如 何 从 较 小 的 数据 集中 学 习 。 


第 2 章 ”使 用 挛 生 网 络 进 行人 脸 识 别 与 音频 识别 


(1) 挛 生 网 络 是 一 种 特殊 的 神经 网 络 ， 也 是 最 简单 、 最 常用 的 单 样本 学 习 算法 之 一 。 挛 生 网 
络 大 致 上 由 两 个 对 称 的 神经 网 络 组 成 它们 具有 相同 的 权重 和 结构 , 并 在 最 后 由 能 量 函 数 妃 连接 
在 一 起 。 

CO) 对 比 损失 函数 表达 式 如 下 ， 




























































































对 比 损失 = 了 (CE) +(1- 切 max(margin 一 已 ,0) 
在 上 式 中 ， 了 代表 真实 标签 (true label )， 当 两 个 输入 值 相似 时 为 1， 当 两 个 输入 值 不 相似 时 
为 0。E 是 能 量 陶 数 , 它 可 以 是 任何 距离 度量 。 变量 margin 用 于 保存 约束 ， 也 就 是 说 ， 当 两 个 输 
入 值 不 相似 时 ， 如 果 它 们 的 距离 大 于 margin 的 值 ， 那 么 就 不 会 导致 损失 。 


(3) 能 量 函数 代表 两 个 输入 的 相似 程度 ， 基 本 上 可 以 是 任何 相似 性 度量 ， 如 欧 氏 距离 和 余弦 
相似 度 。 
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(4) 挛 生 网 络 的 输入 Ci 到 ) 应 该 成 对 出 现 , 它们 的 二 元 标签 Ye {0,1} 代表 输入 对 是 正 样本 对 
( 相同 ) 还 是 负 样 本 对 ( 不同 )。 

(5) 挛 生 网 络 的 应 用 范围 相当 广泛 。 它 们 可 以 组 装 在 各 种 框架 中 ， 用 于 执行 各 种 任务 ， 比 如 
人 类 动作 识别 、 场 景 变 化 检测 和 机 器 翻译 等 。 


第 3 章 原型 网 络 及 其 变 


(1) 原型 网 络 简 单 、 高 效 ， 是 目前 应 用 最 广泛 使 用 的 少 样本 学 习 算法 之 一 。 原 型 网 络 的 基本 
思想 是 创建 每 个 类 的 原型 表示 ， 并 根据 类 原型 与 查询 点 之 间 的 距离 对 查询 点 (新 点 ) 进行 分 类 。 

(2) 我 们 为 每 个 数据 点 计算 般 入 来 学 习 特 征 。 

(3) 一 旦 我 们 学 习 了 每 个 数据 点 的 衣 入 ， 就 可 以 对 每 个 类 中 数据 点 的 谍 入 取 平 均 数 ， 并 形成 
类 原型 。 因 此 ， 类 原型 基本 上 是 类 中 数据 点 的 平均 能 入 。 

(4) 在 高 斯 原型 网 络 中 ， 除 了 生成 数据 点 的 般 入 外 ， 我 们 还 在 数据 点 周围 添加 了 一 个 以 高 斯 
协 方差 矩阵 为 特征 的 置信 区 域 。 置信 区 域 有 助 于 描述 单个 数据 点 的 质量 , 在 数据 有 噪声 的 、 同 质 
性 低 的 情况 下 十 分 有 用 。 

(5) 高 斯 原型 网 络 与 普通 原型 网 络 的 不 同 之 处 在 于 ， 在 普通 原型 网 络 中 ， 我 们 只 学 习 数 据点 
的 般 入 ， 而 在 高 斯 原型 网 络 中 ， 在 学 习 舱 入 的 同时 ， 我 们 还 为 其 增加 了 一 个 置信 区 域 。 

(6) 半径 分 量 和 对 角 分 量 。 


第 4 章 使 用 TensorFlow 构建 关系 网 络 与 匹配 网 络 


(1) 关系 网 络 由 两 个 重要 的 函数 组 成 : 般 入 函数 f, 和 关系 函数 gy 。 

(2) 一 旦 有 了 支撑 集 的 特征 向 量 f,(x,) 和 查询 集 的 特征 向 量 f(x,) ， 我 们 就 使 用 运算 符 Z 将 
它们 组 合 起 来 。 这 里 Z 可 以 是 任意 组 合算 子 。 我 们 使 用 拼接 作为 运算 符 来 组 合 支 撑 集 的 特征 向 量 
和 查询 集 的 特征 向 量 , 即 Z(f,(%),f,(x)))。 

(3) 关系 函数 8y 将 生成 0~1 的 关系 得 分 ,代表 支撑 集中 样本 x 与 查询 集中 样本 x, 之 间 的 相似 性 。 

(4) 损失 函数 如 下 : 













































































































































































pb< -argminiy Dr, -10% ==»))) 
G5) 在 匹配 网 络 中 ,我们 使 用 两 种 嵌入 函数 /与 8， 来 分 别 学 习 杏 询 集 和 支撑 集 x 的 嵌入。 
(6) 查询 点 将 的 输出 了 的 预测 方法 如 下 : 


大 
了 = a(t)y, 
i=1 


第 5 章 记忆 增强 神经 网 络 


(1) NTM 是 一 种 有 趣 的 算法 , 它 能 够 在 存储 器 中 存储 和 检索 信息 ,其 思想 是 用 外 存储 器 来 增强 
申 经 网 络 ， 也 就 是 说 ， NTM 不 是 使 用 隐藏 状态 作为 存储 器 ， 而 是 使 用 外 存储 器 来 存储 和 检索 信息 。 
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(2) 控制 右 基 本 上 是 一 个 前 馈 神经 网 络 或 递归 神经 网 络 。 它 对 存储 器 进行 读 写 。 

(3) 读 头 和 写 头 是 包含 存储 器 地 址 的 指针 ， 它 必须 从 存储 器 中 读 写 。 

(4) 存储 和 矩阵、 存储 体 或 简单 的 存储 器 ， 是 我 们 存储 信息 的 地 方 。 存 储 和 矩阵 基本 上 是 由 记忆 
细胞 组 成 的 二 维和 矩阵 ， 包 含 N 行 和 M 列 。 我 们 使 用 控制 器 从 存储 器 中 访问 内 容 。 因 此 ， 控 制 器 
接收 来 自 外 部 环境 的 输入 ， 并 通过 与 存储 矩阵 交互 发 出 响应 。 

(5) 基于 位 置 的 寻 址 和 基于 内 容 的 寻 址 。 
(6) 插值 门 用 于 决定 是 使 用 上 一 个 时 刻 得 到 的 权重 由 ，， 还 是 使 用 基于 内 容 的 寻 址 得 到 的 权 
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(7) 从 用 途 权 向 量 w* 中 计算 最 少 使 用 权 向 量 wr 非常 简单 。 只 需 将 用 途 权 向 量 中 最 小 值 的 索 
引 设置 为 1， 其 他 值 设置 为 0， 因为 用 途 权 向 量 中 最 小 值 是 最 近 最 少 使 用 的 。 


第 6 章 MAML 及 其 变种 


(1) MAML 是 近年 来 引入 的 、 应 用 最 广泛 的 元 学 习 算法 之 一 ， 在 元 学 习 研 究 方面 取得 了 重大 
突破 。MAML 的 基本 思想 是 寻找 一 个 更 好 的 初始 参数 ， 这 样 ， 在 初始 参数 良好 的 情况 下 ， 模 型 
可 以 以 较 少 的 梯度 步骤 快速 学 习 新 任务 。 

(2) MAML 与 模型 无 关 ， 这 意味 着 我 们 可 以 将 MAML 应 用 于 任何 可 以 通过 梯度 下 降 进 行 训 
练 的 模型 。 

(3) ADML 是 MAML 的 变 体 , 它 使 用 干净 样本 和 对 抗 样本 寻找 更 好 、 更 稳健 的 初始 模型 参数 0。 

(4) 在 FGSM 中 ,我 们 获取 图 像 的 对 抗 样本 ,计算 相对 于 图 像 (拥有 清晰 的 像素 点 ) 而 不 是 
模型 参数 的 损失 梯度 。 

(5) 上 下 文 参数 是 在 内 循环 中 更 新 的 特定 于 任务 的 参数 jg 。 它 特定 于 每 个 任务 ， 代 表单 个 任 
务 的 谍 入 。 

(6) 共享 参数 ， 记 为 0， 在 任务 间 共 享 ， 并 在 外 循环 中 更 新 ， 以 找到 最 优 模 型 参数 。 


第 7 章 Meta-SGD 和 Reptile 


(1) 与 MAML 不 同 ，Meta-SGD 不 仅 能 找到 最 优 的 参数 0， 还 能 找到 最 优 的 学 习 率 “和 更 新 
方向 。 

QQ) 学 习 率 暗合 在 自 适应 项 中 。 因 此 ， 在 Meta-SGD 中 ， 不 是 使 用 小 的 标量 值 来 初始 化 学 习 
率 w ， 而 是 使 用 与 9 形状 相同 的 随机 值 初始 化 学 习 率 ， 并 与 9 一 同 接受 学 习 。 

G) 学 习 率 的 更 新 方程 如 下 : 



































































































































=a-PV, 2 万 (万 ) 
了 ~P(7) 
(4) 抽样 个 任务 ， 并 对 每 个 抽取 的 任务 执行 SGD ， 但 迭代 次 数 更 少 ， 然 后 按照 所 有 任务 的 
共同 方向 更 新 模型 参数 。 
(5) Reptile 更 新 方程 : 96=0+c(0'-0)。 
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第 8 章 梯度 一 致 作为 优化 目标 

(1) 当 所 有 任务 的 梯度 方向 相同 时 ， 称 为 梯度 一 致 。 当 某 些 任 务 的 梯度 与 其 他 任务 的 梯度 相 
差 较 大 时 ， 称 为 梯度 不 一 致 。 

(2) 梯度 一 致 更 新 方程 : 96=0-pB2_wVL (ja) 

(3) 权重 与 任务 梯度 的 内 积 以 及 抽样 批 任务 中 所 有 任务 梯度 的 平均 值 成 正比 。 

(4) 权重 计算 如 下 : 








388)) 
> | > (818)) | 


(5) 归 一 化 因子 与 g, 和 gw 的 内 积 成 正比 。 

(6) 如 果 一 个 任务 的 梯度 与 抽样 批 任务 中 所 有 任务 的 平均 梯度 方向 相同 , 那么 可 以 增加 它 的 权 
重 ， 这 样 它 对 更 新 模型 参数 的 贡献 就 会 变 大 。 类 似 地 ， 如 果 一 个 任务 的 梯度 与 抽样 批 任务 中 所 有 
任务 的 平均 梯度 有 很 大 的 不 同 , 那么 可 以 减少 它 的 权重 , 这 样 它 对 更 新 模型 参数 的 贡献 就 会 变 小 。 

第 9 章 ”新 进展 与 未 来 方向 

(1) 有 很 多 不 同类 型 的 不 平等 度量 : 基尼 系数 、 泰 尔 指 数 和 算法 的 方差 等 。 

(2) 泰 尔 指 数 是 非常 常用 的 不 平等 度量 ， 以 荷兰 计量 经 济 学 家 享 利 . 泰 尔 的 名 字 命 名 。 它 被 
称 为 广义 度 量 ， 是 不 平等 度量 家 族 的 一 个 特例 ， 并 被 定义 为 最 大 箭 与 观测 精 之 差 。 

(3) 如 果 让 机 器 人 通过 观察 我 们 的 行为 来 学 习 ， 那 么 就 可 以 很 容易 地 让 机 器 人 高 效 地 学 习 复 
杂 的 目标 ， 而 无 须 设计 复杂 的 目标 和 奖惩 函数 。 这 种 类 型 的 学 习 ， 即 从 人 类 行为 中 学 习 ， 被 称 为 
模仿 学 习 ， 即 机 峰 人 试图 模仿 人 类 的 行为 。 

(4) 概念 生成 器 用 于 提取 特征 。 可 以 使 用 由 0, 影响 的 深度 神经 网 络 来 生成 概念 。 例 如 ， 如 果 
输入 是 图 像 ， 概 念 生成 器 可 以 是 CNN。 

(5) 从 任务 的 分 布 中 抽取 一 些 任务 样本 ,通过 概念 生成 器 学 习 它 们 的 概念 ， 对 这 些 概 念 进行 
元 学 习 ， 然 后 计算 元 学 习 损 失 : 
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“这 本 书 对 算法 的 解释 简 法 明晰、 通俗 昂 懂 ， 任 何 想 了 解 元 学 习 的 人 
都 应 该 阅读 。 


一 一 英文 版 读者 评论 


近年 来 深度 学 习 的 发 展 如 火 如 茶 ， 但 深度 神经 网 络 需 要 大 规模 的 训练 集 来 训练 
模型 ， 而 且 处 理 新 任务 时 不 能 采用 已 有 的 模型 ， 必 须 从 零 开 始 训练 新 模型 。 

元 学 习 能 够 生成 通用 的 人 工 智 能 模型 来 学 习 执 行 各 种 任务 。 只 需 少量 数据 点 ， 
即 可 训练 元 学 习 模 型 完成 各 种 相关 的 任务 。 因 此 对 于 新 任务 ， 元 学 习 模 型 可 以 
利用 之 前 从 相关 任务 中 获得 的 知识 ， 无 须 从 零 开 始 训 练 。 

本 书 介绍 元 学 习 及 其 原理 ， 讲 解 各 种 单 样本 学 习 算 法 ， 并 在 基于 Python 的 
TensorFlow 与 Keras 中 实现 它们 。 阅 读本 书 ， 你 将 能 够 : 


全 理解 什么 是 元 学 习 、 元 学 习 的 类 型 及 其 算法 

全 使 用 这 生 网 络 建立 人 脸 识 别 模型 与 音频 识别 模型 
人 @ 学 习 原 型 网 络 及 其 变 体 

信使 用 TensorFlow 构 建 关 系 网 络 与 匹配 网 络 

@ 企 Python 中 从 头 开 始 构 建 MAML 和 Reptile 算 法 
@ 掌 握 从 头 构建 梯度 一 致 算法 

人 @ 探 索 任 务 无 关 元 学 习 和 深度 元 学 习 
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